美国IBM研究院近日宣布,通过全新的分布式深度学习软件,实现了接近理想的扩展能力,该软件在64台IBM Power系统服务器中的256个GPU上并行运行深度学习框架,实现了95%的扩展效率,并使运算速度与准确率得到了显著提升。此前最佳的系统扩展能力是Facebook人工智能研究院所取得的89%。
深度学习是一种广泛使用的人工智能方法,可以帮助计算机通过大量数据理解真实世界的图像和声音,并提取其中的含义。到目前为止,深度学习主要是在单一服务器上运行的,在不同计算机之间高速移动大量数据的协调过程太过复杂,因此大规模运行深度学习模型在技术上面临着困难,训练时间通常要持续数天甚至数周。
IBM研究团队编写了软件和算法,能够对在数十台服务器中的数百个GPU加速器间并行运行非常庞大且复杂的计算任务和自动优化。在使用ImageNet-22k数据集的750万张图像训练模型时,图像识别准确率史无前例地达到了33.8%,而微软此前发布的最好结果为29.8%。IBM的分布式深度学习技术不仅提高了准确率,还能大幅缩短运算时间,可在7小时内训练一个ResNet-101神经网络模型,而微软训练同一个模型需要花费10天时间。
免责声明:本网转载自其它媒体的文章,目的在于弘扬科技创新精神,传递更多科技创新信息,并不代表本网赞同其观点和对其真实性负责,在此我们谨向原作者和原媒体致以崇高敬意。如果您认为本站文章侵犯了您的版权,请与我们联系,我们将第一时间删除。