计算机科学系研究团队以四分钟完成训练ImageNet创世界纪录

2018年8月2日
(右)褚晓文博士和博士生施少怀。
数据传输的示意图。


计算机科学系副教授褚晓文博士团队和腾讯机智机器学习平台合作,在ImageNet数据集上,只用4分钟完成训练AlexNet,6.6分钟完成训练RESNET-50,创造了人工智能训练世界新纪录。过往由外国保持的纪录为以11分钟完成训练AlexNet,15分钟完成训练RESNET-50。

为了可高速及稳定准确地训练神经网路,计算机科学系团队与腾讯机智学器平台致力增加批量大小来缩短训练AlexNet及ResNet-50的时间。是次研究中,团队每批次漂洗65,536张ImageNet图像以训练神经网路。

此外,研究团队发现一种名为「张量融合」的沟通技术。当节点在丛集系统内分享讯息时,大量小型张量被组合起来以减少信息流量,从而减低延迟及增加吞吐量。团队训练时亦使用了混合32位元及16位元半精度浮点(FP32和FP16),而非单纯地使用FP32,能够进一步减少数据在节点记忆分流的用量,并改善吞吐量及大大缩短训练时间。

团队计划将提升训练ImageNet速度应用于其他人工智能范畴及服务上,例如人工智能游戏。