您的位置: 主页 > 人工智能内参 > 2018年,AI芯片之战将打响,谁是大玩家?

2018年,AI芯片之战将打响,谁是大玩家?

时间: 2017-12-24阅读:



2017 年,当 Intel 在洛杉矶举行的 Automobility LA 贸易展上发布了最新的 AI 硬件,但它并不是什么里程碑式的产品,而只是若干科技巨头接连发布的一系列最新技术之中的其中一个——所有这些产品都是为了在 AI 硬件领域的地位奠定基础。因为拿下人工智能领域的一方,将会成为制造业、汽车、物联网、医疗,甚至娱乐业在内的众多行业中的主导力量之一。

在硬件方面,人工智能领域正在进行一场“权力的游戏”,不同公司都在不遗余力地争夺霸主地位,并希望自己的产品可以成为人工智能技术(特别是深度学习和神经网络)芯片架构的标准。

Research and Markets 和 TechNavio 的分析师预测,全球 AI 芯片市场在 2017 年至 2021 年,将以年均 54%的速度增长。


Technavio 嵌入式系统研究首席分析师 Raghu Raj Singh 表示,市场对于能够满足深度学习需求的高功率硬件的需求,是推动这一发展的关键因素。“硬件市场的高增长率,反映出市场对高计算能力的硬件平台的需求不断增长,这有助于深度学习算法的进步。创业公司和老牌公司之间日益激烈的竞争正在引领新的 AI 产品发展的潮流,无论是硬件还是软件平台,都开始采用深度学习计划和算法。”


火药味越来越浓烈,AI 芯片制造商之间的战争一触即发。人工智能将成为计算机硬件的下一个前沿领域,并且可能是自移动计算和互联网出现以来,人工智能可能是计算机硬件最重要的战场。

那么,我们是如何到达这里的,谁是大玩家呢?


CPU

当那些不需要人力操作的五级自动驾驶汽车上路后,我们会发现它们将是有史以来最聪明、最复杂的机器之一。当然,自动驾驶车辆已经成为人工智能的主要目标之一,而芯片制造商 Intel 想要在这一领域牢牢巩固自己的地位。

然而,Intel 并没有把全部的精力放在内部研发上,而是通过收购来构建自身的 AI 能力。2016 年 8 月,Intel 收购了神经网络处理器制造商 Nervana Systems。

神经网络能够非常有效地执行各种各样的任务,但为了完成这些任务,首先必须训练网络如何执行任务。一个神经网络执行任务前需要进行训练,例如在执行一个识别狗的图像的任务之前,需要先训练神经网络认全所有物种的狗。这可能意味着网络需要处理成千上万,甚至数百万张的狗的图像,如果没有足够强大的处理能力,这个任务会非常耗时。

2016 年 11 月,在收购 Nervana 几个月后,Intel 宣布推出一系列处理器——Nervana,一个直接针对人工智能相关应用,如训练神经网络的平台。Intel 数据中心事业部执行副总裁兼总经理 Diane Bryant 说道:“我们期望 Intel 的 Nervana 平台再性能上能够有所突破,并大大缩短训练复杂神经网络所需的时间。预计十年之内,Intel 的性能将提高 100 倍,加速新兴的深度学习领域创新的步伐。”

2017 年 3 月,Intel 又高调地收购深度学习 ADAS 开发商 Mobileye,收购总额约为 150 亿美元。Intel 的并购战略几乎立即产生重大意义。这家芯片制造商希望在自动驾驶车辆领域占有一席之地,而且这一战略也让其一跃成为机器学习硬件的关键供应商。

去年 11 月在洛杉矶举行的 Automobility LA 贸易展览会上,Intel CEO Brian Krzanich 称,自动驾驶已成为如今最大的 game changer,并宣称 Intel 在收购 Mobileye 公司后推出的新产品 SoC 和 EyeQ5,比其最大的竞争对手——Nvidia's Xavier 的深度学习平台性能提高两倍。


GPU 是否为 AI 而设计?

偶然地,GPU 制造商发现他们掌握着可能处于 AI 革命最前沿的技术。当 GPUs 被当做 CPU 的补充时(许多 CPU 将 GPU 集成到 GPU 中进行图形处理),GPU 已经扩展到以图形和视频为中心的领域之外,进入深度学习领域,GPU 制造商纷纷表示他们的产品性能远优于 CPU。

Nvidia 表示,其 Titan V GPU 是有史以来最强大的 PC 深度学习 GPU。 图片来源:Nvidia

虽然市场上有不少 GPU 公司,但没有哪家公司比 Nvidia 作为这个技术的代名词更贴切。根据 Jon Peddie 研究公司的报告,Nvidia 在 2017 年第三季度的 GPU 出货量增长了 29.53%,主要竞争对手 AMD 和 Intel 在这方面均败下阵来。AMD 的出货量增加了 7.63%,而 Intel 的出货量增加了 5.01%。当然,这主要是由于视频游戏市场的推动,但 Jon Peddie Research 的分析师认为,与加密货币挖掘有关的应用程序对高端性能的需求,也对出货量增长做出贡献。

对于高性能任务处理器(如加密货币挖掘和 AI 应用程序)的需求,将 GPU 推向了 AI 硬件的最前沿。GPU 包含数百个可同时执行数千个软件线程的内核,而且比 CPU 更节能。CPU 比较泛化,且更具有跳跃性,可以执行很多任务,并擅长对大批量数据进行重复操作。GPU 之所以被称为 GPU,就是因为这一关键区别,它更擅长处理图形——因为图形处理涉及一次性处理数以千计的小计算。同时,这样的性能也使得 GPU 成为理解上述神经网络训练等任务时的理想选择。

就在今年 12 月,Nvidia 宣布推出了一款专为深度学习而设计的 PC GPU——Titan V。这款 GPU 基于 Nvidia 的 Volta 架构,使用了 Nvidia 称之为 Tensor Cores 的新型核心技术。在数学术语中,张量(tensor)的定义为“与矢量相似,但更泛化的数学对象,用一组空间坐标函数表示。”Nvidia 所做的,是针对处理深度学习和神经网络计算的需求,开发具有复杂架构的内核。

Titan V 包含 210 亿个晶体管,具有 110 浮点运算的深度学习能力,专为从事 AI 和深入学习的开发人员设计。公司创始人兼 CEO Jensen Huang 在新闻发布会上表示,Titan V 是有史以来为个人电脑开发的最强大的 GPU。 “我们对 Volta 的愿景是其能打破高性能计算和人工智能的外部极限,用新的处理器架构、指令、数字格式、内存架构和处理器链接打开了新的局面。通过 Titan V,我们把 Volta 交给了世界各地的研究人员和科学家手中。”


一个张量的世界

也许没有哪家公司比 Google 对张量概念的研究更加深入。2016 年,这家搜索巨头发布了非常流行的深度学习开源框架 TensorFlow。如 Google 所说,“TensorFlow 是一个使用数据流图进行数值计算的开源软件库。图中的节点表示数学运算,而图像边缘表示在它们之间通信的多维数组(张量)。它灵活的体系结构让用户可以使用单个 API 将计算部署到桌面、服务器或移动设备中的一个或多个 CPU 或 GPU。”

Google 的张量处理单元(TPU)运营公司所有基于云的深度学习应用程序,是 AlphaGo AI 的核心。(图片来源:Google)

TensorFlow 的机器学习应用程序库包括面部识别、计算机视觉,当然还有已经被证明非常流行的搜索和其他应用程序,以至于 2016 年 Intel 致力于优化其处理器来运行 TensorFlow。2017 年,谷歌还发布了针对移动和 Android 开发者的精简版 TensorFlow。

但 Google 关于 AI 的目标不会止于软件。2016 年,该公司发布了第一代被称为张量处理单元(TPU)的新处理器。Google 的 TPU 是专为机器学习和 TensorFlow 而量身定制的 ASIC。2017 年 5 月,Google 发布第二代 TPU,并称其性能高达 180 teraflops。

2017 年 6 月,在加拿大多伦多举行的第 44 届计算机体系结构国际研讨会(ISCA)上,Google 发布了一项研究报告,将其部署在数据中心的 TPU 与 Intel Haswell CPU,以及部署在同一数据中心的 Nvidia K80 GPU 进行了比较,结果发现,TPU 比 GPU 和 CPU 运行速度平均快 15 到 30 倍。TPU 的 TOPS per watt 也比后两者高约 30 到 80 倍。Google 表示,现在,TPU 已经用于该公司所有在线服务,如搜索、街景、Google 相册和 Google 翻译服务中。

在一些非常高端的 AI 应用中,TPU 也已经证明了其价值。TPU 是谷歌著名的 AlphaGo AI 背后的“大脑”,AlphaGo AI 去年击败了围棋世界冠军,而最近,AlphaGo 通过证明其能够在相对较短的时间内,通过自学成为围棋大师,从而实现了人工智能领域的巨大的飞跃。经过短短几个月的训练,AlphaGo 的最新版本 AlphaGo Zero 的能力就远远超过人类专家。而战胜国际象棋(一个复杂的游戏,但是比 Go 计算量小得多)专家,也就是几个小时的事情。


FPGA——AI 竞赛中的一匹黑马

如此看来,TPU 就是 AI 的未来,是这样吗?事实上可能没那么快。虽然 Nvidia、Google 以及 Intel 在某种程度上都专注于为 AI 服务,但其芯片提供的服务处理过程均发生在设备上,而不是云端。微软声称,其 FPGAs 云端人工智能服务的性能与 Nvidia、Google 以及 Intel 相当,甚至更优。微软认为,这款代号为 Project Brainwave,基于 FPGA 的云端解决方案,在可扩展性和灵活性方面将优于 CPU、GPU 和 TPU。

微软的 Project Brainwave 在使用 Intel Stratix 10 FPGA 运行时,运行速度达 39.5 teraflops,延迟不足 1 毫秒。 (图片来源:微软 / 英特尔)


一般来说,基于处理器的解决方案在某种程度上会受到设计上的限制,仅能完成特定的任务。但是,由于 FPGA 具有灵活性和可重编程性,让升级更容易,处理器的性能更高。根据微软的说法,在 Intel Stratix 10 FPGA 上运行时,微软的 Project Brainwave 的运行速度达到 39.5 teraflops,延时不足 1 毫秒。


FPGA 是否能为人工智能提供最佳解决方案,与其他议题一样是值得商榷的事情。微软认为,创造 AI 专用 ASIC 的生产成本太高,而另一些人则认为,FPGA 永远无法完全实现专为 AI 设计的芯片性能。


3 月份举行的 International Symposium on Field Programmable Gate Arrays (ISFPGA) 上,一些 Intel 加速器架构实验室的研究人员发表了一篇论文,称其对处理深度神经网络算法的两代 Intel FPGA(Arria10 和 Stratix 10)和 Nvidia Titan X Pascal (Titan V 处理器)进行了比较。据 Intel 研究人员称:“研究结果显示,在 pruned、Int6 和二值化 DNNs 矩阵乘法运算方面,Stratix 10 FPGA 的性能(TOP / 秒)比 Titan X Pascal 图形处理器的性能分别高 10%、50% 、5.4 倍。在 Ternary-ResNet 方面上,Stratix 10 FPGA 比 Titan X Pascal GPU 的性能高 60%,而且性能功耗比高 2.3 倍。这表明,FPGA 可能成为加速下一代 DNN 的首选平台。


400位CEO、学术专家、投资大咖齐聚一堂

中国人工智能机器人行业年度盛典
倒计时4天   报名从速!

公众号对话框回复1109可获取人工智能产业全景图】【人工智能时代的机器人3.0新生态研究报告】

推荐阅读

点击下方图片即可阅读

华为不再孤独,百度AI觉醒,李彦宏用一本书换了Mate10

上一篇:图灵机器人联合创始人郭家确认出席2017中国人工智能机器人CEO峰会
下一篇:没有了

相关阅读