計算機科學系研究團隊以四分鐘完成訓練ImageNet創世界紀錄

2018年8月2日
(右)褚曉文博士和博士生施少懷。
數據傳輸的示意圖。


計算機科學系副教授褚曉文博士團隊和騰訊機智機器學習平台合作,在ImageNet數據集上,只用4分鐘完成訓練AlexNet,6.6分鐘完成訓練ResNet-50,創造了人工智能訓練世界新紀錄。過往由外國保持的紀錄為以11分鐘完成訓練AlexNet,15分鐘完成訓練ResNet-50。

為了可高速及穩定準確地訓練神經網路,計算機科學系團隊與騰訊機智機器學習平台致力增加batch size來缩短訓練AlexNet及ResNet-50的時間。是次研究中,團隊每批次漂洗65,536 張ImageNet圖像以訓練神經網路。

此外,研究團隊發現一種名為「tensor fusion」的溝通技術。當節點在叢集系統內分享訊息時,大量小型張量被組合起來以減少信息流量,從而減低延遲及增加吞吐量。團隊訓練時亦使用了混合32位元及16位元半精度浮點 (FP32 and FP16),而非單純地使用FP32,能夠進一步減少數據在節點記憶分流的用量,並改善吞吐量及大大缩短訓練時間。

團隊計劃將提升訓練ImageNet速度應用於其他人工智能範疇及服務上,例如人工智能遊戲。