芯片设计|谷歌、英伟达及EDA厂商纷纷下场,AI如何改变芯片设计?( 二 )



同样 , 另一家EDA工具大厂Cadence 也于2021年推出了首款基于全的设计工具 Cerebrus , 可以实现数字芯片设计的自动化与规模化 。
据介绍 , Cerebrus采用独一无二的增强型机器学习 , 实现了高达 10 倍的工程生产力提升 , 20% 的 PPA 结果改进 。 同时 , 还实现了 RTL-to-GDS 的全流程自动优化 , 从而能够更迅速地提供更佳的 PPA , 提升设计团队的工作效率和生产力 。 Cerebrus采用可扩展、分布式计算解决方案 , 可利用本地或云端的计算资源 , 这种高效可扩展的解决方案可以应对设计规模和复杂度的不断攀升 。

Cadence公布的数据显示 , 一款5nm、3.5GHz CPU的PPA优化设计 , 采用手动开发的过程 , 通常则需要多名工程师耗费数月时间 , 而使用 Cerebrus 自动改进PPA之后 , 1 名工程师仅在 10 天内 , 即可显著改善流程推动设计收敛
除了EDA厂商之外 , 谷歌、英伟达也在试图利用AI算法来直接优化芯片设计过程 。
谷歌PRIME
2021年 , 谷歌就曾表示 , 其已经使用机器学习来优化其 TPU 设计的布局 。 今年3月 , 谷歌研究人员发布的一份报告显示 , 他们已经开发出一种名为 PRIME 的深度学习方法 , 该方法通过借鉴现有的蓝图和性能数据来生成 AI 芯片架构 。 他们声称 , 与谷歌生产中 EdgeTPU 加速器和使用传统工具制作的其他设计相比 , 他们的方法可以生产出延迟更低且所需空间更少的AI芯片设计 。
他们在一份报告中写道:“也许使用先前设计的加速器数据库进行硬件设计的最简单方法是使用监督机器学习来训练预测模型 , 该模型可以预测给定加速器的性能目标作为输入 。 然后 , 可以通过优化该学习模型相对于输入加速器设计的性能输出来设计新的加速器 。 ”
该团队表示 , 与使用传统仿真驱动方法创建的芯片设计相比 , 采用 PRIME 方法延迟最多可降低1.5倍 , 而深度学习方法还将生成上述蓝图的时间减少了 99% 。

研究人员将 PRIME 生成的芯片设计与仿真生成的 EdgeTPU 进行了九个 AI 应用程序的比较 , 其中包括图像分类模型 MobileNetV2 和 MobileNetEdge 。 至关重要的是 , PRIME 设计针对每个应用进行了优化 。
研究人员将芯片面积限制在 27mm2以下(EdgeTPU 加速器的默认设置) , 发现 PRIME 比 EdgeTPU在延时上降低了2.69 倍(在t-RNN Enc中高达 11.84 倍) , 同时还减少了约50%的芯片面积(在 MobileNetV3 中减少了55.9%) , 这一数据震惊了研究人员 , 因为他们根本没有训练 PRIME 来降低芯片尺寸 。 另外 , 即使在针对定制设计的 EdgeTPU 加速器进行了优化的 MobileNet 图像分类模型上 , PRIME 也将延迟降低了1.85倍 。


PRIME 还在零样本设置中为看不见的应用程序构建了有效的加速器 , 其延迟优于基于仿真的方法 1.26 倍 。 而随着训练应用程序数量的增加 , 性能差异也会增加 。

英伟达PrefixRL
今年7月 , 英伟达也通过其技术博客宣布 , 其最新的Hopper H100 GPU架构利用PrefixRL AI模型设计了13000个算术电路实例 。 该公司的三位深度学习科学家表示 , “可以使用人工智能设计更小、更快、更高效的电路 , 以在每一代芯片中提供更高的性能 。 庞大的计算电路阵列为英伟达GPU提供了动力 , 实现了人工智能、高性能计算和计算机图形性能前所未有的加速 。 因此 , 改进这些算术电路的设计 , 对于提高GPU芯片的性能和效率至关重要 。 “

英伟达利用PrefixRL Al模型设计了一个64位加法器电路 , 测试结果显示 , 该64位加法器电路比最先进的EDA工具设计的电路在功能相同的情况下 , 面积减少了25% , 同时速度快 。

相关经验推荐