褚曉文教授及其團隊於IEEE INFOCOM 2021獲頒「最佳論文獎」

2021年5月21日
褚曉文教授(右)、施少懷博士(左)及香港科技大學李波教授合著論文,並獲「2021年IEEE INFOCOM國際會議」頒發「最佳論文獎」。

本系褚曉文教授、博士畢業生施少懷博士及香港科技大學李波教授合著論文〈Exploiting Simultaneous Communications to Accelerate Data Parallel Distributed Deep Learning〉,最近獲「2021年IEEE INFOCOM國際會議」頒發「最佳論文獎」。

獲獎論文提出了一種新穎的算法來減少在GPU集群上訓練大型AI模型所需的時間。 通過理論分析和實驗,論文發現利用並發的All-Reduce通信可以有效提高小張量數據的通信效率。為了同時利用張量融合和並發通信,該團隊提出了一個新的數學優化問題,並找到一種有效的解決方案,稱為ASC-WFBP。 團隊在具有32個GPU和10Gbps以太網的8節點GPU集群上進行了大量的實驗。 通過在四個流行的AI模型上進行性能評估,實驗結果表明ASC-WFBP相比不進行張量融合的基線方法提高約1.09-2.48倍的速度,而相比最先進的張量融合解決方案也可以提高1.15-1.35倍的速度。

為期四天的計算機通信國際會議(INFOCOM)是業界中研究網絡的大型及重要會議。研究人員可以在網絡和緊密相關的領域中展示和交流重大而創新的貢獻和想法。經過嚴格的雙盲評審過程,在1266份論文中,共有五分之一被接納; 而最終只有三份論文被評選為「最佳論文獎」。