置身事内:腾讯的造芯之路( 五 )


他们申请特批进入空空荡荡的办公楼 。这情景,和两年前点亮蓬莱时何其相似 。

置身事内:腾讯的造芯之路

文章插图


不曾想到,点亮蓬莱时的一波三折,同样重现 。克服了一些调试中的意外,在一片欢呼中,腾讯的第三款芯片、同时也是完全自主研发的第一款芯片沧海成功点亮 。
化沧海为一粟 。沧海最终实现以更小的数据量、更小的带宽提供相同质量的视频,压缩率相比行业最佳表现还提高了30%以上 。
从蓬莱到紫霄再到沧海,从28纳米工艺到12纳米工艺,从8个人发展到100多人,从仿真工具一无所有到“天箭验证平台”正式落成,从努力跟上合作伙伴的节奏到独立做完全SOC 。
两只小分队胜利会师 。蓬莱团队,完成了一场“芯”路进化 。
05
“100G”时代,双木参天
躬身跳进造芯大潮的,不是只有云架构平台部 。
在多媒体、AI处理积极求变的同时,底层的云服务器也面临着相似的问题:当软件优化带来的性能提升无法让产品拥有区别于竞品的明显竞争力时,如何让性能突破现有天花板?
2019年,腾讯迎来云计算业务上的里程碑——云服务器规模突破了100万 。腾讯云副总裁、腾讯网络平台部总经理邹贤能敏锐地观察到,随着服务器接入带宽不断提升,服务器用于网络处理的CPU资源也越来越多 。
能否以更低成本的方式来实现服务器网络处理,同时还提供更高的网络性能?腾讯的网络平台部也将目光投向了软硬协同与硬件加速 。
面对这样“既要、又要”的挑战 , 邹贤能决定给服务器做个减法:“把网络数据处理的负担从CPU卸载出来” 。
“智能网卡”的想法就这样诞生了 。
所谓智能网卡,一方面像普通网卡一样肩负起服务器的对外网络访问,实现不同服务器和数据中心之间的网络互联 。另一方面,它额外带有CPU/FPGA/内存等智能单元 , 能分担一部分服务器的虚拟化计算任务 , 实现服务器整体网络和存储性能的加速 。
换句话说 , 网络平台部要做的事,是要在网卡里新装一个服务器 。
置身事内:腾讯的造芯之路

文章插图


腾讯智能网卡“银杉”
一开始,团队希望找到一款现成的商用板卡降低工作量 。
网卡硬件负责人Hayden牵头开展方案论证和调研,但商用芯片的加速引擎不支持私有协议成为当时直面的第一大挑战,也是最大的障碍 。一些著名的网卡设备商听了腾讯的要求就摇头:
“现在网卡的功能很简单 , 你们这个要求太复杂了,很难实现的 。”
还有些直白地质疑:“网卡数量这么多,可靠性要求高 , 你们自己搞得定吗?”
难道智能网卡项目刚起步就要流产?
邹贤能给团队指明了方向:“既然智能网卡是云数据中心追求极致性能与成本的关键部件,如果市面上没有满足腾讯需求的产品,那我们就自己造一个 。”
方向明确之后,路线也很快清晰起来:先从基于FPGA自研智能网卡起步,再开展智能网卡芯片研发 。
2020年9月,腾讯第一代基于FPGA的自研智能网卡正式上线,命名为“水杉”,寄寓着团队希望产品可以像这种珍稀乔木一样适应性强、快速生长 。
疫情期间各种突发需求砸来,初生的水杉没有被挑战压弯 。
Hayden回忆道,一个大客户本身采用了UDP音视频协议,在属性上是“不可靠”、允许丢包的,极大地依赖网络吞吐和稳定性,却要求高并发、高质量的音视频传输效果 。

相关经验推荐