褚晓文教授及其团队于IEEE INFOCOM 2021获颁「最佳论文奖」

2021年5月21日
褚晓文教授(右)、施少怀博士(左)及香港科技大学李波教授合著论文,并获「2021年IEEE INFOCOM国际会议」颁发「最佳论文奖」。

本系褚晓文教授、博士毕业生施少怀博士及香港科技大学李波教授合著论文〈Exploiting Simultaneous Communications to Accelerate Data Parallel Distributed Deep Learning〉,最近获「2021年IEEE INFOCOM国际会议」颁发「最佳论文奖」。

获奖论文提出了一种新颖的算法来减少在GPU集群上训练大型AI模型所需的时间。 通过理论分析和实验,论文发现利用并发的All-Reduce通信可以有效提高小张量数据的通信效率。为了同时利用张量融合和并发通信,该团队提出了一个新的数学优化问题,并找到一种有效的解决方案,称为ASC-WFBP。 团队在具有32个GPU和10Gbps以太网的8节点GPU集群上进行了大量的实验。 通过在四个流行的AI模型上进行性能评估,实验结果表明ASC-WFBP相比不进行张量融合的基线方法提高约1.09-2.48倍的速度,而相比最先进的张量融合解决方案也可以提高1.15-1.35倍的速度。

为期四天的计算机通信国际会议(INFOCOM)是业界中研究网络的大型及重要会议。研究人员可以在网络和紧密相关的领域中展示和交流重大而创新的贡献和想法。经过严格的双盲评审过程,在1266份论文中,共有五分之一被接纳; 而最终只有三份论文被评选为「最佳论文奖」。