深度学习|百度CTO王海峰:飞桨产业级深度学习平台大幅降低应用门槛( 二 )



据介绍 , 飞桨平台从以下四个方面持续积累和突破 , 成为大幅降低AI应用门槛的全栈平台 , 包括开发便捷的深度学习框架、超大规模训练技术、多端多平台高性能推理和产业级模型库 。
在开发环节 , 需兼顾灵活和高效 。 动态图更灵活 , 静态图更高效 。 飞桨实现了动静统一的开发体验 , 用动态图进行开发 , 自动转成静态图部署 。 利用飞桨简洁易用的API , 10行代码即可实现模型训练 。 动静统一、高低融合的API体系可以大幅降低模型的开发成本 。
在核心的训练环节 , 飞桨研制了通用异构参数服务器技术 , 可以进行高效混布异构计算、存储、通信 , 突破单一硬件制约;以及端到端自适应分布式训练技术 , 能够自动感知硬件环境、实行多维混合的并行策略 , 以及做异步流水线的执行等等 , 支持大规模高效训练 , 降低训练成本 。
在推理部署环节 , 飞桨研制了训推一体工具链 , 支持从模型训练到模型优化 , 再到推理部署的全流程效率提升 。 在模型压缩中 , 实现了自动化压缩技术 , 在精度和性能无损情况下 , 开发代码量大幅降低 。 对于端、边、云全场景的推理引擎 , 通过数据处理加速、计算图优化、执行调度开销降低等方式 , 深度优化性能 , 大幅降低推理时延 , 实现了多端多平台的高性能推理 。
压缩完成之后 , 硬件会统一接入 , 全面降低硬件适配成本 。 飞桨硬件适配统一方案 , 最底层是芯片 , 然后是飞桨框架硬件适配层 , 可在算子、子图、整图、深度学习编译器、神经网络交换格式等进行不同的适配 。 飞桨已经适配了国内外的各类主流芯片/IP超过30种 。
面对AI模型开发、训练和推理部署的复杂流程 , 飞桨提供训推一体导航图 , 可以让开发者基于导航图 , 找到最适合自己应用的训练模式、推理部署的工具等等 , 进而可以非常便捷快速地开发自己的应用 。
产业级模型库方面 , 如今飞桨开源的模型数量已超过500个 , 涵盖不同层面 , 既有基础的自然语言处理、计算机视觉、推荐、语音等 , 也包括各种工具组件 , 可以让开发者便捷调用 。 此外 , 飞桨还提供了产业模型的选型工具 , 为应用场景自动选择最佳模型 , 更好地匹配产业落地的诉求 , 提供全流程的选型建议以及配套范例的教程 。
飞桨模型库:知识增强的产业级文心大模型
文心大模型是飞桨模型库的重要组成部分 , 包含基础大模型、任务大模型、行业大模型等产业级知识增强大模型体系 , 以及工具平台、API和创意社区助力大模型的高效应用 。 文心知识增强大模型从海量数据和大规模知识中融合学习 , 效率更高 , 效果更好 , 理解和生成能力显著提升 。

他表示 , 在文心的基础大模型中 , 鹏城-百度·文心是百度和鹏城实验室联合研发的全球首个知识增强千亿大模型 , 在60多项任务取得了最好效果 。
任务知识增强大模型ERNIE 3.0 Zeus , 从海量文本数据、大规模知识图谱和不同任务中融合学习 , 针对不同的任务做知识增强 , 效果大幅提升 。
计算机视觉领域 , 多任务统一的视觉大模型 , 在分类、检索、分割、检测等20多项视觉任务上取得了很好的效果 。 知识增强的跨模态大模型 , 实现了跨模态语义的统一表示与关联 , 进行跨模态语义的理解与生成 , 如ERNIE-VilG能够进行图文双向生成 , ERNIE-GeoL融合“地理-语言”关联知识 , 大幅提升地理位置相关任务效果等 。
除了跨模态 , 还有跨领域大模型 , 如生物计算大模型 , 化合物表征学习HELIX-GEM , 是首个几何构象增强的化合物表征模型 , 在14项药物相关的任务上取得良好效果;蛋白质结构分析 HELIX-Fold模型 , 全面适配国产软硬件环境 , 在国产硬件上训练千万级别蛋白效率更高 。

相关经验推荐