让数据科学团队跨过算力鸿沟,NVIDIA这款产品做了什么?

文|智能相对论
作者|叶远风
对CT图像分析 , 分割出结节;
对结节进行定量定性分析;
对随访病人记录其结节在时间上的变化 , 形成动态跟踪;
对各类信息综合考量 , 判断结节类型;
甚至 , 自动生成报告……
找寻、分析、跟踪、判断、总结 , 这是山东聊城某三级医院CT检测室里 , 一套AI系统帮助影像科医生对肺结节进行诊断的过程 。
随着AI医疗影像开始广泛落地 , 越来越多的医院 , 尤其是基层医院开始享受到切切实实的“医疗技能”普惠 。 聊城这家医院的系统来自北京一家AI创新科技企业 , 在2018年 , 其专门针对肺结节的系统就已经安装超过一百家医院 , 处理了超90万病例 。
这几年AI医疗影像热潮迭起 , 其中肺结节诊断又被认为是“入门”级能力 , 导致业界对落地成果的出现并不算敏感 , 而事实上 , CT断层成像作为分辨率非常高的三维成像 , 每个病人基本上都有几百张断片成像 , AI系统需要处理的数据量十分庞大 , 应用落地一直是一件充满挑战的事 。
这意味着 , 能够符合医疗需要并实现快速迭代的AI系统 , 其背后一定需要越来越强大的算力来加速模型的训练 。
一个现实是 , 算力价值凸显 , 甚至成为阻碍企业发展的桎梏(不仅限于医疗影像领域)——这也一定程度上解释了 , 为什么当初医疗影像领域的初创企业一窝蜂上马 , 但能活下来出成果的很少 , 除了开发能力不济 , 很有可能是没有找到合适的算力资源 。
解决算力难题 , 成为内部数据科学团队的当务之急 。
AI超算——人工智能数据中心的小型化 , 问题的答案?
一位从事AI医疗影像的专家曾这样阐述过算力的重要性:
由于模型训练经常需要调整某些参数或者尝试不同的模型 , 算力不够 , 每个调整都可能需要等上几天才能出结果 , 这导致模型优化缺乏效率 , 甚至因为时间太长都忘记了当初的测试目的 。
几乎所有AI场景对算力的需求都在加速膨胀 , 过去一些年 , 市面上能够提供给数据科学团队的算力形态 , 在一定的条件下都未必能很好地满足需要 , 尤其是主流的基于CPU的庞大数据中心 , 在计算能力上离支撑快速迭代要求的算力水准还有较大差距 。
甚至 , 由于数据科学团队无法找到合适的算力供给而导致项目搁置或企业消亡的案例屡见不鲜 , 业界呼唤新的解决方案 。
需求变化推动着供给变革 , 算力供给形态这些年也在持续进化 , 其中 , 一类可以承担人工智能数据中心职责、提供符合需求算力的产品——“AI超级计算机”开始走向台前 。
开篇的北京AI创新企业能走下来 , 除了团队在美国积累了一系列经验等原因 , 恰当的算力供给也不可忽视 , 其命名为σ-Discover Lung的智能肺结节分析系统的开发 , 采用了来自NVIDIA的DGX Station加速神经网络模型的训练 。
以小型化服务器系统的形式 , NVIDIA DGX Station主要通过互联的GPU以及大容量内存 , 来实现一体式AI数据中心的功能 。
而这种产品的出现 , 其本质上是算力供给形态适应市场需求的一种进化 , 即人工智能数据中心的小型化——通过新的GPU芯片以及适配的主板与整机系统 , 大幅度提升算力性能 , 形成在外形上如同个人计算机产品一样的“AI超级计算机”(以下简称AI超算) , 告别CPU产品的冗重与低效 。
让数据科学团队跨过算力鸿沟,NVIDIA这款产品做了什么?
文章图片
从具体参数看 , AI超算表现出十分超前的性能 。
不久前国内某龙头科技企业帮助武汉建设的AI数据中心投入使用 , 其峰值性能为100 petaflops , 相当于50万台个人PC的算力之和 , 而作为AI超算的DGX Station , 其最新产品单台可提供2.5 petaflops的算力 , 即只需要40台就能在量级上与一个地区数据中心的峰值能力持平 。

相关经验推荐