英伟达介绍如何使用AI辅助开发GPU让电路尺寸缩小25%
发布于 2023-10-02 02:48:35 阅读()作者:小编
已有9352成功领取POS机
英伟达介绍如何使用AI**开发GPU让电路尺寸缩小25%
此前英伟达的首席科学家兼研究高级副总裁BillDally在GTC2022上,分享了一些英伟达研发方面的信息,其中涉及了使用机器学习(ML)和人工智能(AI)技术,进行开发、改进和加速GPU设计。
在过去的数年时间里,英伟达在AI和ML领域的努力不容忽视,其GPU成为了不少数据中心和HPC的首选。
目前英伟达主要使用最先进的EDA(电子设计自动化)工具来设计GPU,同时还运用了一种名为PrefixRL的人工智能模型,使用深度***化学习优化并行前缀电路,让英伟达可以设计出面积更小的芯片,同时能提供相似或更好的性能。
据英伟达的介绍,在最新的Hopper架构GPU上拥有将近13000个电路实例,而这些实例完全由AI创建。从英伟达展示的对比图可以看到,基于PrefixRLAI设计的64b加法器电路与传统的EDA工具相比,面积减少了25%,但速度和功能是等效的。
训练PrefixRL这样的模型是一项计算密集型任务,物理模拟需要256个CPU用于每个GPU,训练64b案例需要超过32000个GPU小时。英伟达为此开发了Raptor,这是一个内部分布式***化学习平台,利用英伟达硬件的独特优势进行***化学习。
英伟达表示,这应该是第一种使用深度***化学习代理来设计算术电路的方法,希望这种方法可以成为将AI应用于现实世界电路设计的问题。
继自动驾驶后,芯片巨头英伟达这一次要挑战AI医疗
作者 | 宋家婷 编辑 | 罗丽娟
直到今天,NVIDIA(中文名“英伟达”)究竟是一家芯片公司还是人工智能公司,业界依然有不同看法。
但英伟达创始人兼首席执行官黄仁勋已经在多个场合表示:“英伟达是一家人工智能公司。”
变化始于几年前,人工智能在全球兴起,这家公司抓住了机会。凭借在图形处理器(GPU)方面的技术积累,英伟达迅速从一家图形芯片公司转型为AI平台搭建者,并大获成功。
几年间,英伟达股价翻了10倍不止,市值一度突破千亿美元,成为全球炽手可热的人工智能公司。
从 游戏 、自动驾驶到机器人等AI热门领域,英伟达的身影无处不在。
在医疗行业,有机构预测,至2021年AI医疗估值将高达66亿美元。尽管该领域技术门槛很高且落地难,但任何一家自称人工智能公司的玩家都不愿意错过这块大蛋糕。
攻下技术的硬骨头,英伟达也终于迎来了产品落地期。在2019年EmTech China“全球新兴 科技 峰会”上,负责医疗 健康 的英伟达副总裁Kimberly Powell,分享了英伟达在人工智能上的发展路径。
“(英伟达)使用无人驾驶来磨炼人工智能技术,再把这些技术拓展到其他产业中,包括医疗领域。”Kimberly Powell说,Clara即是英伟达开发的以 AI 为驱动的医疗影像超算平台,用以提升传统老旧设备对应用程序的处理速度。
据介绍,这一平台核心是Clara AGX,基于英伟达 X*ier AI运算模组、Turing GPU的运算架构,能从入门级设备扩展到要求最苛刻的3D仪器。在Kimberly Powell看来,Clara平台能够解决医疗器械处理每秒数GB的巨量数据。她透露,Clara已向早期合作伙伴提供免费使用,并**于2019年第二季向特定对象推出测试版。
这只是英伟达在AI医疗领域的一个尝试。
据了解,截至2018年11月,已有超过50所医疗机构投资英伟达DGX系列深度学习优化服务器及工作站,而与其合作将AI技术用于医疗领域的机构已超过75家,其中包括医疗中心、医学成像公司、研究机构、新创公司等都是其合作对象。
以下是英伟达副总裁Kimberly Powell接受全天候 科技 等媒体***访实录,经整理:
媒体:Clara平台去年推出至今,落地情况和接受度如何?
Kimberly Powell : Clara是2018年11月推出的。我们也是在 探索 阶段,不是一次性完全开放,而是先向有意向的合作伙伴开放网上注册。从去年11月底到现在,已经有350家到400家公司注册,几乎世界上比较大的有名的公司医院和初创企业都已经注册了。不过它还是非常新的东西,现在还谈不上普及度和接受度问题。Clara当前的版本是我们刚刚发布的第一个版本。
媒体:中国及其它市场对Clara平台的使用情况有何差别?
Kimberly Powell : 美国客户在IT方面的成熟度略高一些,因此他可以在云端执行Clara,这是因为美国有数据匿名化的技术来实现Clara的云端执行。同样的一套软件既可以在医院本地运行,也可以在云端运行。
对于中国市场而言,混合运营环境的支撑是非常有优势的,因为可能在中国的偏远省份或者农村地区,网络条件不好,无法获得这样的云服务,那么他们可以选择在本地执行;但是对于那些大城市而言,他们可以选择云端运行的方式。
媒体:Clara的目标用户群是哪些?
Kimberly Powell : Clara主要针对三大类型企业客户,第一是医疗设备公司,第二是人工智能软件开发公司,第三可能是那些拥有几百个应用的医院。
英伟达为各个领域的开发人员提供了至少有好几百个不同的SDK(软件开发套件),Clara只是这几百个中的一个,是给开发人员用的工具箱。
媒体:Clara***用怎样的运作模式?
Kimberly Powell : Clara的开发社区更多的是技术上的合作,商业推广弱一些。比如推想 科技 使用的是Clara里的推理引擎,实现并行执行多个人工智能算法。如果没有这个推理引擎,一个AI的模型就必须有一个专门的GPU执行。所以对于公司来说,Clara可以更快更有效地实现自己应用在医院的执行,用最少的硬件**运行他们的人工智能应用。
媒体:在医院搭建这样一个平台,大致需要多少成本?
Kimberly Powell : Clara不是作为一个单独的软件套件向医院销售的,而是通过英伟达的企业合作伙伴销售。由于它是作为一种应用安装在硬件系统里使用的,所以我们很难回答Clara单独的成本是多少。
英伟达的硬件作为一种基本的器件几乎存在于所有计算的设备中,所以Clara使用的范围是广泛的,即使是你买的 游戏 显卡都可以支持Clara的运行。
Clara不仅适用于某种类型的医院,可能有的医院还没有意识到Clara的优势。他们会逐渐意识到,无论购买任何计算机的硬件,通过Clara平台都可以做到三种不同类型的计算,这对他们来说益处很大。
媒体:未来针对Clara平台有什么改进的**?
Kimberly Powell : Clara本身是一套软件,目前发布的还是比较早期的版本。现在我们已经有一些要重点改善的地方,比如与外部的硬件系统之间的互联互通,比如支持通讯协议,还有在Clara上增加更多加速的引擎,帮助初创企业加速方案的部署。
同时,我们正在做的是学习知识的转让以及**式的功能。不同地区的医院,本身条件不一样,使用的设备也不一样。我们希望在某个医院设备上所分析出来的知识或者结论,能够在本地普及推广,而不是只把结果输出出去。我们应该会在1月底发布第一个这样的版本。
媒体:英伟达想通过Clara平台收获什么?
Kimberly Powell : Clara平台使用了英伟达三大重要的技术,加速计算、人工智能和可视化。在医疗影像方面,我们并不希望计算、可视化以及人工智能三个不同的工作负载分别执行在不同的硬件上,我们希望一台计算机借由Clara就可以做三种不同的计算。
对于Clara而言,英伟达的想法是软件+硬件,其实Clara也是英伟达对于未来智能设备的铺垫。我们认为,收集数据做事后分析很大程度上取决于你在什么设备上,什么时候收集的数据。事实上我们希望通过软件的创新赋能医疗设备,在硬件端会有智能的设备,同时我们配置软件开发的SDK,这意味着实现在医疗行业随时随地的计算。
媒体:英伟达在AI医疗领域有哪些竞争优势?
Kimberly Powell : 英伟达更多是一家赋能型的公司,现在很多大公司抢占医疗人工智能的市场,其实是英伟达帮助他们更好地在基础设施层执行人工智能医疗的应用,帮助他们实现这样的市场目的。大部分计算设备都使用到了英伟达的GPU,这是我们的定位。
此外,英伟达有着一个非常庞大的开发人员的社区,我们有一个CUDA SDK下载套件每月下载量达到50万,下载CUDA的都是初创公司或者学术界的研究人员,如此庞大的基础也会帮助到那些做医疗的产业,因为这也会是他们的客户。
媒体:在医疗行业,英伟达的合作伙伴有哪些?
Kimberly Powell : 我们有四大类型的合作伙伴,在每个地区都是这样。第一个类型的合作伙伴是学术界的,因为英伟达自己不是医生,我们不产出医生,也不搞医学研究,所以在这方面要寻求合作伙伴。我们还有一个英伟达人工智能实验室(NVAIL),这是一个全球化的正式针对这种类型的合作伙伴项目。
第二个类型的合作伙伴是初创企业,我们有一个项目Inception(初创加速**),有本土英伟达负责医疗行业的团队帮助中国的初创公司。通过开启这个项目,我们可以为这些初创企业提供技术支持,最新的技术可以给这些初创企业率先使用。如果他们有好的解决方案和产品,我们还帮他们进行商业推广。
第三个类型是产业界商业化的合作伙伴,比如华大基因、联影智能,我们主要是在代码开发层级深入的合作,同时也会有联合的商业销售方面的支持。
媒体:英伟达跟中国公司的合作主要体现在哪些方面?
Kimberly Powell : 我们在GTC CHINA大会期间发布了一个博客,在加速数据科学方面,我们给项目起名叫RAPIDS,其实代表英伟达平台的演进:首先从加速计算开始,然后进入深度学习,现在是机器学习,而机器学习是我们RAPIDS平台代表的。
RAPIDS是更广泛地针对医疗行业的英伟达平台,而不仅针对医疗影像。我们发布RAPIDS之后吸引了众多公司,包括平安保险和华大基因。其中,平安保险有大量的理赔数据,还有保险客户的医疗数据,华大基因更是拥有海量基因的数据,甚至是像探智立方这样做数字可穿戴设备的公司,也非常欢迎RAPIDS这个平台。
(更多精彩 财经 资讯,请下载华尔街见闻App)
AI的「iPhone 时刻」,英伟达的「核弹发射」
近日,一年一度的英伟达 GTC 大会再度拉开帷幕。穿着标志性皮夹克的「AI 黄仁勋」向开发者介绍了英伟达在硬件和 AI 领域最新的进展。
年初的 CES 刚刚过去,对于英伟达来说,短时间就要拿出很多新的东西,挑战不小。但是从 CES 到现在,短短 3 个月里,全球 AI 领域发生了翻天覆地的变化,这也成了英伟达的新契机。
AI的?「iPhone 时刻」
「AI 的『iPhone 时刻』已经到来」,老黄这样形容最近 AI 行业的「大**」。
2016年8月,黄仁勋将当年全球第一台 AI 超算捐给了 OpenAI。6年多后,OpenAI 带着 ChatGPT搅动了整个地球。大量的新型创业公司希望借助于这股东风来颠覆既有的传统商业模式,而许多传统的科技巨头也在纷纷拥抱 AI,来维系自己的领先地位。
在 2023GTC 大会上,英伟达宣布了将和谷歌云、微软 Azure、甲骨文云联手推出 DGX 云服务。ChatGPT 将从目前使用的 A100 GPU 升级到使用微软 Azure 超级计算机用上 H100,理论上回复速度将快 10 倍。
毫无疑问,ChatGPT 将会引发新一轮的人工智能革命,其对整个汽车行业也会产生深远的影响。ChatGPT 模型也将逐渐从人机沟通逐步赋能包括自动驾驶在内的智能网联系统的各个环节。在百度推出「中国版 ChatGPT」的「文心一言」后,吸引了包括集度、长安、吉利、长城、东风日产、零跑等车企纷纷抛来合作的橄榄枝。
而在 ChatGPT 以及其他一众 AI 大模型技术的背后,都离不开英伟达在算力层面的大力支持。自从英伟达向 OpenAI 交付首台 DGX 超级计算机后,目前台 DGX 超级计算机已经成为市场上最主流的产品。最新 DGX 超级计算机的核心,是英伟达的 8 块 H100 模组。当 ChatGPT 这样的 AI 工具逐步渗透车企之后,最大的赢家之一依然会是英伟达。
联想 x 英伟达,汽车行业新亮点?
对于英伟达来说,在这次 GTC 上,和车企的合作,尤其是自动驾驶领域着墨不多。但这并不影响未来汽车领域的业务会成为英伟达的一个快速增长的新引擎。
作为如今全球可以和特斯拉齐平、最为炙手可热的新能源车企之一,比***迪与英伟达进一步扩大合作当消息得到了官宣。比***迪的下一代王朝系列和海洋系列中的多款车型都将使用英伟达 DRIVE Orin 高性能计算平台。其中,在今年二季度,比***迪首款***用英伟达芯片且搭载了激光雷达的车型就将上市。
在王传福看来,作为新能源汽车的上半场,比***迪在电动化方面凭借刀片电池赚得盆满钵满;而在新能源汽车的下半场,比***迪选择了英伟达作为智能化方面的最重要合作伙伴之一,也是希望在芯片算力层面,能够走在市场的最前列。除了 Drive?Orin 平台之外,在今年 1 月份的 CES 展上,比***迪也作为首批合作企业,将落地英伟达旗下 GeForce NOW 云游戏服务**。而后者也是英伟达进军智能座舱市场的最新布局。
不过让我们惊讶的是,联想成为首家***用英伟达新的自动驾驶域控制器的一级制造商,在不远的未来,其域控制器将***用英伟达的 SoC 芯片。
对于联想这样从事电脑服务器的硬件公司,进军智能电动车的高算力中央计算平台,既在意料之外,也是情理之中。对于联想来说,布局智能座舱、智能驾驶和中央计算平台等领域是对现有技术和产品的延伸,虽然会面临一定的困难,但是联想并不是从零开始,过往的技术积累可以发挥不小的作用。众所周知,联想一直没有涉足芯片领域,因此引入英伟达的雷神芯片将帮助联想补齐最重要的一块短板。
根据英伟达的介绍,雷神这款 SoC 芯片内部拥有 770 亿个晶体管,可以实现 2000 TOPS 的 AI 算力,或者是 2000 TFLOPs,其在算力上不仅已经远远超过了满足高等级自动驾驶的需要,已经完全有能力承担起汽车高算力中央计算平台的重任。这款芯片将在 2025 年大规模量产,而这个也和联想在 2025 年推出高算力的中央计算平台的时间表相吻合。
在此之前,联想会推出算力达到 32TOPS 的行泊一体方案,而这也是目前被不少国内车企,尤其是在低成本车型上广泛应用的驾驶**解决方案,市场前景较为看好。
不过对于国内汽车领域来说,已经有不少像联想这样的跨界玩家入局,甚至已经上车量产;对于联想来说,除了首发英伟达自动驾驶域控制器的一级制造商的先发优势外,还有哪些优势能让它赢得市场,还是未知数。
Omniverse,英伟达征战车圈的新工具
在汽车行业,英伟达的触角不仅仅是提供自动驾驶算力平台以及中央计算平台,其早已经将目光投向了汽车零部件的设计以及整车制造领域。通过赋能汽车行业的虚拟制造和虚拟工厂,英伟达希望让汽车设计和生产的数字化进程再上一个新的台阶。
在过去几十年里,CATIA、UG 这些软件已经成为工程师必不可少的助手。整车企业使用这些虚拟仿真软件,通过数字化模拟的手段提前对后期的成品进行预览的方法来进行前期的零部件设计以及整车的总布置工作。如果没有前期的虚拟仿真,后期重新设计不仅成本较高,而且很有可能造成项目的时间节点的延误。
但最近十多年来,这些软件都没有突破性的革命成为席卷全球的 AI 浪潮的「法外之地」,没有能够对整车企业的零部件设计提供更大的帮助。
为此,英伟达打造了 Omniverse,它说到底是一个虚拟世界仿真引擎,不仅可以精确反映真实的物理世界,同时也能够遵守物理学定理。所以 Omniverse 不仅能够在前期验证零部件与整车的装配关系,避免后期的包括动态干涉在内的各种装配上的问题,同时也能指导工厂设计,并帮助整车企业对工厂布局进行持续优化。
对于绝大部分希望全面转型电动车的传统车企来说,工厂的改造任务非常繁重。前期虚拟阶段验证地越充分,后期实际占用工厂时间就会越少,而节约出来的时间就可以被用来进行生产。
根据 GTC 现场黄仁勋的介绍,宝马时下正在使用 Omniverse 来对全球 30 家工厂的运营进行规划。在每座工厂正式投入量产前两年,宝马就会使用 Omniverse 模拟建造一座完整的虚拟工厂,并进行持续的调整和优化,以此避免后期工厂建设完毕之后再进行比较大规模的调整,进而影响生产。
宝马之外,包括沃尔沃、通用汽车、奔驰、捷豹路虎、Lotus、丰田等都已经是英伟达 Omniverse 的用户。
从某种程度上来说,未来英伟达很有可能利用自己的优势地位来逐步取代我们熟悉的 CATITA 和 UG,成为整车企业的数字化设计工具。而这个所能撬动的,同样是一个体量巨大且前景非常可观的市场。
最后
「生成式 AI 正在推动 AI 的快速应用,并重塑无数行业。」 在 ChatGPT 之后,相信没有人再会去怀疑这句话。汽车行业只是英伟达当前涉足的一个产业而已,可能深深埋藏在老黄心底的,是让 AI 去赋能整个社会的方方面面,以此来推动全世界科技的进步和产业发展的梦想。
AI 的「iPhone 时刻」,也正是英伟达「核弹发射」的时刻。
【本文来自易车号作者GeekCar极客汽车,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
英伟达和浪潮为什么会被“AI馅饼”砸中?
文|李佳师
在充满不确定性的地方中碰到确定性,在不会掉馅饼的地方被馅饼砸中,往往都是小概率**。
“天上会不会掉馅饼?答案是可能会。英伟达的GPU就是被Hinton教授和ImageNet比赛的‘馅饼’给砸中。而浪潮十几年前就和英伟达一起基于GPU+CUDA来做HPC,所以当浪潮从HPC赛道进入AI服务器赛道时,也被AI的馅饼‘砸’中了。” 浪潮集团AI&HPC总经理刘军说。因为当天的***访是在一个茶室,所以刘军谈得也比较放松,关于AI计算业界这几年发生的事,关于浪潮与BAT的AI,关于未来的AI计算,刘军分享了不少“干货”。
有人说,浪潮信息最近这些年的发展,被两个馅饼“砸”中了,一个馅饼是互联网服务器,因为一直贴身服务于成长中的BAT等中国互联网企业,发展出了JDM模式,成为全球最大的互联网服务器供应商。另一个馅饼是AI服务器,在2019年上半年浪潮AI服务器出货量占据全球第一,在中国AI市场占据50.2%市场份额。关于浪潮互联网服务器的故事大家都知道,但是关于AI服务器是如何被馅饼砸中的,外界知之甚少。
这几年,浪潮信息的核心关键词是智慧计算,浪潮认为“计算力就是生产力”。这次***访中刘军将该观点进行了新演绎,认为“人工智能计算是未来核心的计算力”。
而要谈AI计算力,英伟达是一个绕不过去的话题。英伟达是AI时代计算力增长的红利获得者,这是业界公认的事实。因为其GPU在2012年被深度学习之父Hinton***用,去参加了大规模视觉识别挑战赛(ILSVRC)而一举夺冠,(啰嗦一句:ILSVRC就是斯坦福AI实验室主任李飞飞缔造的ImageNet图像识别比赛),从此奠定了GPU在人工智能训练市场的核心地位,让英伟达的股价 “一骑红尘”一直飙升。
事实上,英伟达的命运是在2012年、2013年开始改变的,从一直做HPC到后来HPC+AI,不断过度到AI市场,因为2012年的ILSVRC比赛以及2016年AlphaGo与李世石比赛,让英伟达的GPU名声大噪,于是GPU成了做深度学习的“标配”。
现在大家谈英伟达都把焦点放在GPU身上,但其实还有一个功臣,CUDA软件平台功不可没。因为这个计算平台,让英伟达培育起开发者生态,因为CUDA让GPU的能力释放出来。“而在2012年之前,英伟达其实已经默默耕耘CUDA计算平台达5~6年之久。估计英伟达公司内部也有不少人抱怨,还要不要继续做CUDA?投入那么久,也没有看到多大的回报,因为它主要是针对高性能计算(HPC)领域,而这个市场又不大。” 刘军透露说。
虽然GPU性能很好,但是没有足够多的软件,所有的软件要从CPU搬到GPU上,就得重写软件,而当时会用CUDA的开发者很少,于是当时身份为浪潮集团HPC总经理的刘军,其HPC团队有很重要的一部分工作就是每年要给行业客户进行CUDA培训,同时帮助行业客户写CUDA 软件,这样的贴身服务于石油、勘探、气象、生物等行业客户,让浪潮积累了大量的行业经验和需求。”也是在那个时候,包括华大基因、奇虎360等客户找到浪潮的HPC团队,说我们能不能一起合作将CPU上的翻译、基因库、安全等应用改到GPU上去跑?因为客户的变化,于是浪潮HPC也就一只脚跨到了AI上。”刘军说。
后来的事情,大家都知晓,英伟达的GPU成为全球AI计算力代言,而浪潮的HPC团队在2017年变成了AI&HPC团队,深耕AI服务器市场,短短几年成为全球第一大AI服务器供应商,在中国AI市场占据50.2%的份额。
这段关于英伟达与浪潮的“往事”揭示了几个关键信息:一是很多在外界看起来是“天上掉馅饼”的“时来运作”,其实都经历了很长时间的 “至暗时刻”,只是外人没有看到,被馅饼砸中的人,通常都热身了很久。二是在计算产业领域,每一个成功技术和产品的背后,似乎都和 “生态”是否蓬勃发展有关,在英伟达身上如此,在浪潮身上也如此。
浪潮在AI领域去年最大的动静是推出“元脑生态**”,围绕这个**,浪潮打造了AI计算、AI**、AI计算工具三大平台,构建了“左、右“手AI生态,(左手是指有AI功能开发能力的 科技 公司,右手是指有AI落地和交付能力的公司)。
在一个技术领域里,是否参与“尺子”的定制,往往决定了一个企业在产业中的地位是主导还是“被动跟随”。
“每一个领域,都有一些可衡量的尺子,这些尺子规范的建立对一个产业的成熟和蓬勃发展非常重要,这些尺子定得好与不好,会把大家引导到不同的方向上,或是良性的或是畸形。”刘军说。
就像HPC领域的全球超算TOP500排行榜,Linpack测试,就把全球超级计算机产业推向异常发展态势。刘军说:“因为基于Linpack测试来进行全球超级计算机TOP500的排名,带来的结果是各国为了争夺这个排名,争相投巨资建设能排名第一的机器。”这就成了大家做超级计算机的“尺子”,其实这个尺子并不是一个能够很好引导行业朝着更好应用HPC的方向发展。
到了AI计算时代,也应该有一个新的尺子来引导行业的发展。虽然目前在AI领域已经有了谷歌、英伟达公司为主导的Mlperf测试基准,但是基准更侧重于芯片本身的性能,而事实上,用户使用的计算机是一个系统,并不仅仅是一个芯片,所以业界需要一个更侧重于计算系统的测试基准。基于此,浪潮加盟了由国际权威评测机构SPEC成立的机器学习技术委员会(简称SPEC ML),并担任首届委员会**,Intel公司为秘书长,目前正在推动基于机器学习的测试基准规范制定。“从跟跑、到并跑、到领跑,浪潮希望走到领跑阵营主导产业发展格局。”刘军说。
也是基于此,浪潮与IDC第二次发布了《AI计算力发展评估报告》,希望为**、 社会 、产业提供一些参考性的报告、依据和数据。
“天下有免费的午餐吗?有的。摩尔时代,摩尔定律就是免费午餐,在人工智能时代,计算力就是免费的午餐,你得大胆地去吃,才能够享受它带来的红利。一定要充分利用计算力这个**,当你能够用计算力去完成的事情,就没有必要再用人去完成。” 刘军说。
今天在中国市场有众多的AI玩家,包括以BAT为代表的互联网企业,也包括以浪潮等为代表的IT企业,还有大批的AI创业企业,大家的定位有什么不同?浪潮如何与BAT展开竞争?
刘军认为,从基于云来提供AI产业化服务角度看,BAT等公司侧重于基于公有云来提供AI服务,而浪潮则侧重于混合云的角度来提供AI服务,对于非常多的行业和企业客户,他们很在乎数据是存储于本地还是云上,会选择混合云的基础设施方式来获得AI能力、AI服务,在这个维度上浪潮是更合适的选择。
“其实浪潮与BAT之间并不矛盾,大家最终目的一样,比如百度也是我们的客户,我们也是百度的合作伙伴,BAT也是我们生态伙伴的一部分,他们会通过我的生态赋能往前面走,最终实现产业AI化,大家是相互配合的关系。”刘军说:“大家并不是在小池塘里喝水,你喝了他就没得喝,而是在一个大江大海里喝水,根本喝不完。”
有人问,今天浪潮的AI服务器已经占据了整个市场的50.2%份额,接下来该如何进一步增长,接下来该如何做?刘军给出的答案是,如果这是小池塘,确实会感到有边界,水会被喝完,但其实这是个很大的市场,增长的空间和边界还非常大,而且需要更多的玩家一起把市场做大,把生态做大,把“AI计算力”这个免费的午餐做得更好吃,更容易吃,在这样的诉求下,有大量的事情需要做,现在才刚刚拉开序幕。
独家 | 寒武纪二代芯片发布在即,提前揭秘如何挑战英伟达!
「初创公司要贸然打入云端市场,简直就是自寻死路」。
长久以来,云端的数据中心市场被视为创业公司的禁地,因为英特尔、英伟达、AMD 等巨头林立,竞争太过凶残。
但近年来,云计算势不可挡,云端芯片市场呈现爆发式增长,不乏勇者前来破局。
作为一家发源于中科院计算所、背靠多家「国字辈」资本、估值已经来到 30 亿美金的硬核创业公司,寒武纪挑战云端市场的底气十足。
2018 年 5 月,寒武纪发布首颗云端 AI 芯片,并对外透露获得中国前三大服务器浪潮、联想、曙光的订单。据机器之心了解,滴滴、海康威视也已经成为寒武纪的客户。
与此同时,寒武纪成数亿美元 B 轮融资。据机器之心了解,目前寒武纪的估值约为 30 亿美元,与今年 2 月完成 6 亿美元融资后成为「全球最具价值的 AI 芯片公司」的地平线不相上下。
一年后,寒武纪二代芯片已经箭在弦上,这颗积蓄了中科院计算所研发实力四年之久的二代或将为行业带来不小震荡。
机器之心独家获悉,寒武纪二代云端芯片或将于本月公布,同时我们***访到寒武纪技术研发相关知情人士、寒武纪云端芯片客户等多方信源,提前揭秘关于该颗芯片的细节亮点和核心技术。
这回有了中文名
据机器之心了解,寒武纪二代云端 AI 芯片代号为「MLU270」,延续上一代芯片「MLU170」的 MLU(Machine Learning Unit)系列。今年初,寒武纪已经为旗下芯片注册两大中文商标名,分别是「思元」、「玄思」。综上,寒武纪二代云端 AI 芯片中文名为「思元 270」。
在今年的新品议程表上,虽然还名列有其他芯片,但「思元 270」及其板卡将会是重头戏。这也表明寒武纪将从终端向华为等品牌商授权 IP 的模式,转向主打云端市场的芯片方案提供商。
在芯片架构方面,寒武纪二代芯片将从上一代的「MLUv01」升级为「MLUv02」。考虑到**数据正呈现爆炸性增长,成为数据中心的任务主流,寒武纪在「思元 270」里内建**解码单元,瞄准海量的**处理市场专门配置。
据机器之心了解,寒武纪「思元 270」在今年年初研制成功,制程工艺方面明显抛弃了此前终端市场的激进打法,选择仍然沿用台积电 16nm 工艺,定位于「专注云端训练计算」。
对比两大巨头的主流云端产品线,英伟达去年 9 月发布并已发货的 Tesla T4 ***用 14nm 工艺,AMD 去年 11 月发布的 Radeon Instinct MI60 和 MI50 ***用 7nm 工艺,寒武纪这次似乎希望单纯依靠技术路线取胜,不再如去年对于 7nm 工艺寄予厚望。
「让英伟达难受」
在芯片性能方面,「思元 270」的性能参数有意向业界标杆英伟达 Tesla T4 看齐。
据机器之心目前了解到的情况来看,「思元 270」可支持 INT16/INT8/INT4 等多种定点精度计算,INT16 的峰值性能为 64Tops(64 万亿次运算),INT8 为 128Tops,INT4 为 256Tops。
对比 Tesla T4,FP16 的峰值性能为 65 Tops,INT8 为 130 Tops,INT4 为 260 Tops。
功耗方面,「思元 270」功耗为 75w,与 Tesla T4 持平。
但值得注意的是,这些「理论峰值」不过是纸面规格,真正实测水平相比理论峰值通常有一定缩水。据某大体量计算数据中心负责人,同时也是阿里云早期核心技术研发人员李立表示,「T4 在实测过程中,75w 功耗维持不了多久就降一半频率。」
据该负责人介绍,他在几个月前已经拿到「思元 270」的具体规格和特性,「对比而言,第一代 MLU100 是试水,第二代 270 就聚焦多了,威力非常大,NV 后面会很难受。」
与此同时,该负责人还指出,「寒武纪的方案在某些领域可能不会特别好使,尚待观察。」
核心技术解密
这里需要引入一对运算表示法的概念,整数运算(定点运算)与浮点运算。
它们是计算机计算中最为常用的两种运算表示法,顾名思义,其差异就体现在整数和浮点上,加减乘除运算都是一样的。
整数表示法,即所有位都表示各位数字,小数点固定;浮点表示法,则分成两部分,阶码和尾数,尾数就是数字部分,阶码表示乘幂的大小,也就是小数点位置。所以浮点数在做运算的时候,除了对尾数做加减乘除,还要处理小数点位置。
基于两种不同的运算表示法规则,导致面对同样长度的整数和浮点运算,后者计算模式更为复杂,需要消耗更多的**去处理,并且二者功耗差距通常是数量级的。 简单来说,就是浮点运算占用的芯片面积和功耗相比于整数运算器都要大很多倍。
但浮点运算又有其不可取代性。首先,定点表示法运算虽然直观,但是固定的小数点位置决定了固定位数的整数部分和小数部分,不利于同时表达特别大的数或者特别小的数,可能「溢出」。
而浮点的精度虽然没有定点大,但是浮点运算的小数点位置可以移动,运算时不用考虑溢出,所以科学计算法一般都使用浮点。所谓「溢出」,指超出某种数据格式的表示范围。
此外,具体到使用 GPU 做训练,业界通常更倾向于浮点运算单元,主要是因为在有监督学习的 BP 算法中,只有浮点运算才能记录和捕捉到训练时很小的增量。 由于训练的部分模块对精度要求比较高,所以通常必须是高精度的浮点运算,比如 FP32 才能搞定,FP16 都难。
综上,虽然浮点运算相比定点运算在功耗、计算速度、性价比等方面都不占优势,但截止目前,浮点计算在云端的训练场景中仍具有不可替代的特性,并且以高精度运算为主。
那么,如何在不增加芯片面积和功耗的前提下,如何大幅提升芯片做训练的运算能力就成为云端训练芯片的主要研课题之一。
参考计算过程相对简单的推断计算思路,目前该领域的 AI 芯片多***用集成大量整数运算器或低精度浮点运算器。
面对计算过程更为复杂的训练计算,业界一直在尝试是否可能用性价比更高的定点运算器实现。「但这个问题在学术界也还没有普适的解决方案。」王一说道。
李立表达了类似的观点, 目前大家的研究热点之一,就在于如何全部的定点单元(比如 INT8)代替浮点单元,或者以主要的定点单元配合少量的高精度浮点计算单元(比如 FP32)做更多的训练任务,目的是达到定点计算的快速度,同时实现接近高精度浮点计算的精度。
谈到目前该方向的研究成果和代表论文,李立表示,行业相关的研究文章已经有一些,不过都不具有普适性。
王一进一步向机器之心透露了关于实现低精度运算的「关键心法」,要做好低精度训练,就要找到一个好的数据表示方法,既能表达最后大的数,又能让 0 附近的小量能够更好地表达,因此这个数据表示可能需要有自适应性,能随着训练的过程调整。
他还补充, 「低精度训练确实未必要是浮点数,只要能把数域表达好,0 附近的小量表达好,什么样的数据表示都可以。」
综上,寒武纪在大幅度提升训练阶段的计算功耗比方面,很有可能***用的是以整数为主的低精度运算,这在目前已公布的 AI 芯片项目中属于首创。
实际上,寒武纪在计算机计算领域的开创精神和技术积淀由来已久。早在 2014 年—2016 年期间,寒武纪创始人兼 CEO 陈天石、陈云霁两兄弟的研究就基本奠定了神经网络芯片的经典设计思路,也就是现在常谈到的 AI 芯片架构。
当时他俩的「DianNao 系列」论文横扫体系结构学术圈: Diannao(电脑)是 ASPLOS'14 最佳论文(***洲第一次),DaDiannao(大电脑)是 MICRO'14 最佳论文(美国以外国家的第一次)……
而在大洋彼岸,美国两家风头正劲的 AI 芯片公司 Graphcore、GTI(Gyrfalcon Technology, Inc.)正是沿用了 DianNao 系列论文的基本思路,***用大量堆叠的简单计算单元以实现复杂的云端计算。(机器之心曾进行过相关报道,《一款芯片训练推理全搞,Hinton 为其背书,Graphcore 完成 2 亿美元融资》、《30 年前的「CNN 梦」在这颗芯片落地,能效比高出 Tesla10 倍 | CES 直击》)
此外,要切数据中心市场的蛋糕,一套完备成熟的软件生态也是其核心竞争力的重要体现。英伟达之所以能够在云端训练领域成为绝对主流,其 CUDA 软件生态的基础功不可没。
据机器之心了解,寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链,该平台终端和云端产品均支持,可以实现对 TensorFlow、Caffe 和 MXnet 的 API 兼容,同时提供寒武纪专门的高性库,可以方便地进行智能应用的开发,迁移和调优。
「云芯」之争一触即发
尽管前述了寒武纪的种种硬核技术护体、大资本和客户加持,但想要真正在数据中心市场扎下根,以实现陈天石去年在发布会上谈到的目标:到 2020 年底,力争占据中国高性能智能芯片市场的 30% 份额,仍然面临着异常残酷的市场竞争。
整体上,英特尔在数据中心服务器芯片市场仍然牢牢占据着的 95% 以上份额。
而随着深度学习计算和人工智能技术逐步兴起的云端训练市场,同样被巨头绝对垄断。目前 90% 以上的云端加速***用英伟达 GPU,AMD、FPGA 占据非常小的份额,剩余市场还在被国内外芯片创业公司不断瓜分。
据机器之心了解,近期还有一家国内知名 AI 算法公司将要入局云端推理芯片市场。据德勤最新出炉的报道显示,到 2022 年,全球人工智能训练市场的规模将达到约 170 亿美元,云端推理芯片市场的规模将达到 70 亿美元。
可以预见,2019 年,AI 芯片之争将从端燃及云上,云端的大体量、高增速市场势必迎来更多***劲玩家。
(应***访者需求,文中李立、王一均为化名。)
「大模型+大算力」加持,通用人工智能和智能驾驶双向奔赴
开年以来 ChatGPT、GPT-4 的相继面世再度掀起计算机科学领域通用人工智能(AGI)研究热潮,也不断刷新我们对 AI 的认知。
作为具有人类水平表现的大型多模态模型,GPT-4 被视为迈向 AGI 的重要一步,标志着创新范式的深度变革和生产力的重新定义,也必将带来更多元的产品迁移。
截至目前,全球已经有超百万家初创公司声称使用这一秘密武器来创造新产品,而这些产品将彻底改变从法律到股票交易,从游戏到医疗诊断的近乎一切领域。
尽管其中很多是营销泡沫,但与所有技术突破一样,总会存在炒作周期和意想不到的远期效果。
事实上在另一边,进入 2023 年智能汽车领域同样十分热闹。
智能化已然成为上海车展全场关注的最大焦点,除了激光雷达等关键传感器的单点式突破,各大巨头也纷纷展示智能驾驶全产品矩阵,城市场景**驾驶量产落地加速推进。
更加值得注意的是,BEV、大模型、超算中心等计算机热词正在与自动驾驶、行泊一体、城市 NOA 等智驾焦点火速排列组合,颇有相互交融、双向奔赴的味道。
在这背后,一方面是近年来智驾、智舱持续升级对 AI 在汽车场景落地的数据、算法、算力不断提出更高要求,另一方面,AGI 的重大突破也已将触角伸向智能汽车,将其视为实现闭环应用的重要场景,很多企业布局已经相当高调。
日前,商汤科技 SenseTime 举办技术交流日活动,分享了以「大模型+大算力」推进 AGI 发展的战略布局,并公布该战略下的「日日新 SenseNova」大模型体系。
在「大模型+大算力」加持下,本次上海车展商汤绝影驾、舱、云一体产品体系已全栈亮相,近 30 款合作量产车型集中展出,商汤也再度分享了智能汽车时代的 AGI 落地新思考。
本次上海车展亮相的部分绝影合作车型展示
01、算法:AI 正式步入大模型时代
如商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚所言,「AGI 催生了新的研究范式,即基于一个***大的多模态基模型,通过***化学习和人类反馈不断解锁基模型新的能力,从而更高效地解决海量的开放式任务。」
通用大模型并非为自动驾驶而生,或为满足自动驾驶的特定任务需求而设计。但智能驾驶开发的诸多新需求已在推动算法从专用小模型向通用大模型快速演进。
首先是应对海量数据处理和 Corner Case 问题的迫切需求。
对于感知系统低频出现但至关重要的小目标及带来的潜在安全隐患,算法开发需要面对海量数据,传统的 AI 小模型将难以同时处理大数据量和高复杂度的任务。通用大模型则可用在长尾目标的初筛过程,并叠加语料文字处理得到很好的效果。
再比如智驾算法开发对自动化数据标注、降低人工成本的诉求。相比于人工标注,通用大模型将自动化对海量数据完成标注任务,大幅降低标注数据获取的时间成本和本身的金钱成本,从而缩短研发周期、提升成本效益。
处于类似的考量,近年来国内外巨头企业已围绕大模型纷纷展开各自智驾布局。
继 Google 于 2017 年提出将 Tran*ormer 结构应用在 CV 领域图像分类,大模型已在 GPT-2、GPT-3、BERT 等当中不断证明实力,特斯拉率先站台 Tran*ormer 大模型征战图像视觉。
国内企业也紧随其后:
毫末智行已宣布自动驾驶认知大模型正式升级为 DriveGPT,百度表示利用大模型来提升自动驾驶感知能力并将大模型运用到数据挖掘,华为也已宣布加入大模型争霸赛,自研「**」即将对外上线。
作为行业领先的人工智能公司,商汤在大模型领域可谓乘风破浪,过去一两年则全面将大模型能力在各业务线 20 多个场景落地,包括智能驾驶。
商汤「日日新 SenseNova」大模型体系背后是大模型研发中深厚的积累。商汤有自己的全栈大模型研发体系,其中就包括针对大模型的底层训练及实施过程中的各种系统性优化。
例如,商汤近期向社区发布的用于真实感知、重建和生成的多模态的数据集 OmniObject3D 中包含 190 类 6000 个物体,数据质量非常高。
再比如,商汤在 2019 年就已首次发布 10 亿参数的视觉大模型,到 2022 年参数规模已达到 320 亿,这也是世界上迄今为止最大的视觉模型。
此外,商汤也在智驾领域持续展示大模型能力。2021 年开发的 BEV 感知算法在 Waymo 挑战赛以绝对优势取得冠军,2021 年 BEV Former 的 Tran*ormer 结构至今仍是行业最有影响力的 BEV 工作,今年开发的 UniAD 是业内首个感知决策一体化的端到端自动驾驶解决方案。
在技术实力的另一端是量产进度。商汤也给出了自己的智能驾驶量产公式:
自动驾驶技术能力=场景数据 x 数据获取效率 x 数据利用效率? =场景数据 x 数据获取效率 x 先进算法 x 先进算力。
而先进的算法大模型不仅将通过跨行业数据汇聚提升驾驶场景数据**,通过数据闭环开发模式和自动数据标注提升数据获取效率,更将大幅提升感知精度和感知丰富度进而成倍提升数据利用效率。
依托原创 AI 算法和模型积累,商汤领先的 BEV 感知算法推进国内首批量产应用,并***用 Domain Adaption 算法有效解决跨域泛化问题。商汤首创的自动驾驶 GOP 感知体系将目标数据获取的人力成本降低 94%,实现低成本的车端模型开发,目前也已投入量产应用。
02、算力:智能汽车时代的重要基础设施
随电子电气架构技术由分布式不断向集中式演进,大算力芯片成为新型电子电气架构实现的物理基础。
近年来车端芯片算力发展突飞猛进,如英伟达规划中的 Atlan 单颗芯片算力超 1000TOPS,THOR 单颗算力超 2000TOPS,将大幅提升单车感知决策能力。
而在云端,AGI 在自动驾驶、网联等场景的泛化应用将提出比车端指数级更高的算力要求——从数据标注到模型训练,从场景仿真到算法迭代。
算力将是智能汽车时代的新型基础设施。
在此背景下,近年来主流企业纷纷开启双线并行探索,车端自研算力平台,云端建立超算中心。而进入大模型时代后,数据量随着多模态的引入也将大规模增长,因此必然也会导致 AGI 对算力需求的剧增。
可以看到,英伟达车端云端同步布局并将提供端到端的全栈式 AI 加速计算解决方案,特斯拉也早在 2021 年 8 月发布自研云端超算中心 Dojo。
据近期报道,埃隆·马斯克也将成立一家人工智能公司来与 OpenAI 竞争,已购买数千个英伟达 GPU 并一直招募 AI 研究人员和工程师。
国内方面,吉利、蔚来、特斯拉、毫末智行、小鹏等企业也已跟进布局云端算力集群,投入巨大以提升智驾开发算力储备。
对于商汤来说,如果说大模型将是支撑智能驾驶的上层建筑,那么大算力就是数字基座。
商汤科技董事长兼 CEO 徐立表示,目前大模型对基础算力、基础设施的需求非常旺盛,基础算力对并行效率的要求也非常高,但真正好用的基础设施其实十分稀缺。
出于这一原因,商汤历时五年自建了业界领先的 AI 大装置 SenseCore,完成 2.7 万块 GPU 的部署并实现 5.0 exa FLOPS 的算力输出能力,是***洲目前最大的智能计算平台之一,可同步支持 20 个千亿规模参数量的超大模型同时训练。
位于上海临港的 AIDC 人工智能计算中心将为智能汽车的数据存储、标注、脱敏、仿真训练、算法迭代到部署的闭环提供算力支持,打通基于数据驱动的算法生产全流程,加速高级别智能驾驶技术的 AI 模型生产和持续迭代,推动实现规模化量产。
在 AIDC 的基础上,AI 大装置也将提供支持大模型生产的一系列服务:
处理大模型需要的自动化数据标注,将使智能标注效率提升百倍; 大模型推理部署,使得推理效率提升 100% 以上; 大模型并行训练,最大 4000 块卡并联的单集群,可训练参数量超 5000 亿的稠密模型,可训练超万亿参数; 大模型增量训练,增量微调成本降低 90%; 开源模型和大模型训练开发者工具,大规模提升开发效率。 如此规模的算力设施即使特斯拉同期也尚难以望其项背,也必将推动大模型的高效闭环。
03、「大模型+大算力」推动智能汽车行业整体进程
汽车行业正在面临百年未有之大变革。尽管此次以「大模型+大算力」推进 AGI 发展是商汤提出的战略布局,但事实上,这一理念早已在行业层面达成共识。
基于感知、决策规控和 AI 云三大核心能力,商汤「大模型+大算力」已赋能绝影驾、舱、云三位一体产品体系量产落地:
除智能驾驶领域的全栈能力和行泊一体量产解决方案外,「大模型+大算力」也正在助力商汤打造智能座舱跨场景生态。
车展期间,与商汤「日日新 SenseNova」大模型体系深度融合的绝影未来展示舱升级亮相,语言大模型「商汤商量 SenseChat」以及 AIGC 文生图平台「商汤秒画 SenseMirage」也已上车,多点融合重构人车交互方式,打造第三空间。
以「商量」为例,作为千亿级参数的自然语言处理模型,其使用大量数据训练并充分考虑中文语境,展示出出色的多轮对话和超长文本的理解能力。
商汤也展示了语言大模型支持的诸多汽车场景创新应用,如在行车过程中化身「邮件助手」自动提炼关键信息,作为「会议助理」自动生成会议纪要,大大节省用户行车时处理工作的时间和精力,为未来出行的应用场景拓展带来丰富的想象空间。
此外,以人工智能大模型开发、生产、应用为核心,一站式
【本文来自易车号作者汽车之心,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
相关文章推荐
-
办理境外pos机 10-09
-
新网银行pos机怎么办理 09-02
-
触屏pos机刷卡步骤图解 08-30
-
移联商通pos机刷卡步骤 10-09
-
随行付pos机操作步骤 08-29
-
内蒙古pos机办理步骤 10-06
-
POS机办理规则 09-26
-
开店宝pos机解冻步骤 10-04
-
Pos机的检验步骤 09-06
-
友刷pos机操作步骤 08-21
-
盛钱包pos机使用步骤 09-03
-
拉卡拉pos机怎么还信用卡步骤 08-12
-
中国银行pos机查余额步骤 08-12
-
pos机流量卡安装步骤 08-12
-
pos机使用步骤视频 09-14
-
手机pos机怎么用步骤图 08-12
-
pos机支付步骤 08-12
-
福州pos机比较有名的公司地址在哪里啊 08-06
-
华夏银行POS机使用步骤 08-12
-
pos机平安卡刷卡步骤 10-04