置身事内:腾讯的造芯之路( 二 )


2016年前后 , 由Alpha Go引爆的AI热潮更把FPGA拉入了主流视野 。团队通过FPGA对深度学习模型的CNN算法进行加速后,处理性能达到通用CPU的4倍,而单位成本仅为1/3 。
FPGA效果虽好,但技术门槛比较高,“如果把FPGA云化,是不是一个能够扩大应用的解决路径?”
带着这样的期待,2017年1月20日,腾讯云推出了国内首款FPGA云服务器 , 希望以云计算的方式,将FPGA能力推广到更多企业 。
从效果上来说,在FPGA云服务器上进行FPGA硬件编程的企业 , 确实能将性能提升至通用CPU服务器的30倍以上,而只需支付相当于通用CPU约40%的费用 。以一家著名的基因检测公司为例,传统用CPU需要检测一周的基因序列 , FPGA可以压缩到数小时完成 。
然而云化后的FPGA,没能如预期般迅速席卷整个行业 。
一方面,FPGA毕竟是一种“半定制”的电路 , 许多企业还是无法独立胜任FPGA开发,需要更加上层的服务;另一方面,通用芯片成本的迅速下降,也让FPGA的性价比优势逐渐丧失 。
云端商业化的受挫泼来一盆冷水 , 把团队的热情从巅峰一下子打到了谷底,同时也把两个问题赤裸裸地抛到整个团队的眼前:FPGA对业务的价值究竟有多大?FPGA还能继续做吗?
受此打击,团队在2018年也近乎分崩离析,人员开始集中式地离开 。腾讯在“造芯”上的第一次探索,画上了一个遗憾的逗号 。
02
柳暗花明,“蓬莱”问世
在FPGA云服务器受挫后 , 腾讯需要重新思考硬件之路要怎么走下去 。
在团队几乎解散的2018年,中国芯片行业迎来暖春:中美贸易摩擦给全民普及了芯片的重要性,科创板的设立为半导体企业上市开启大门,而国家资金的进场更是让大江南北一片热火朝天 。
但是 , 对于互联网公司来说,做芯片跟做云计算、数据库、存储系统等一样,需要有具体的业务场景支撑,不能“为了做而做” 。在经历过一场不算成功的探索后,腾讯要等待下一个真实需求带来的机会 。
时间进入2019年 。那是人工智能规模化应用的元年,内外部业务都提出了对AI芯片的强烈诉求 。AI芯片 , 要不要做?
这个问题被提出来的时候,腾讯的管理层有过反对的声音,担心技术人员只是头脑发热,只是为了追逐热点 。但同时 , 管理层也给了足够的灰度 , 没有明令禁止小团队级别的探索 。
以小规模、低成本、特定应用场景的方式先行试水,成了大家的共识 。
云架构平台部将第一款芯片敲定AI推理方向,取名“蓬莱” , 希望这款芯片能像中国古代神话里的海外仙山一样,稳固地立于汹涌波涛之上 。
这支硬件突围小分队,也被正式命名为“蓬莱实验室” 。

置身事内:腾讯的造芯之路

文章插图


有了FPGA探索时积攒的经验,蓬莱实验室对硬件编程语言已经相当熟练 , 也在标准接口、总线等方面积累了一些平台化的设计 。然而,两者的研发要求,不可同日而语 。
如果说做FPGA是搭现成的积木,那么做芯片就是直接从伐木开始来着手来制造积木 。FPGA出了问题可以重新编程,而芯片只有一次流片机会,一旦出错,所有的努力便付诸东流 。
此外, FPGA的资源是现成固定的 , 芯片的资源却是由自己定义的 。一个字,就是要“抠”:用最小的资源做最大的事 。
芯片架构工程师Rick用“装修”改“重建”来形容整个蓬莱项目 。一开始,团队以为能把之前FPGA的技术较为简单地转成芯片 。做着做着发现,以为终归只是以为——FPGA架构在芯片中能直接复用的并不多 , 团队只能把原来的架构整个拆掉,重写的代码量高达85% 。

相关经验推荐