科大讯飞|胡国平:把握好系统性创新的三个关键,科大讯飞坚持源头创新引领

[钉科技观察]近日 , “第四届世界声博会暨2021科大讯飞全球1024开发者节”在合肥收官 , 科大讯飞开放平台2.0战略的发布成为期间重点 , 意在推进人工智能生态更好地实现共同繁荣 。 在开幕式与主论坛环节 , “人工智能技术源头创新”被多次提及 , 代表了科大讯飞一贯的技术信仰 。 2.0战略发布后 , 科大讯飞研究院院长胡国平也介绍了技术生态顺应开放平台升级做出的变化 。
胡国平说 , 科大讯飞坚持在人工智能的技术层面进行源头技术的突破和多技术的融合 , 来推动实现系统性创新 。
在科大讯飞的理解中 , 系统性创新有三个关键要素:一是重大系统性命题到科学问题的转化能力;二是从单点的核心技术效果上取得突破 , 跨过应用门槛;三是把创新链条上各个关键技术深度融合 , 最终实现真正意义上的系统性创新 。
阶段行动来看 , 科大讯飞重点关注四大源头技术:端到端的建模 , 解决分段建模式的信息损失问题;无监督训练 , 实现用更少的数据获得更好的效果;多模态融合 , 充分利用多维多元信息;外部知识融合 , 把人类的常识、知识融入到算法模型的构建中 。
具体来看:
端到端建模 。 在深度学习的框架下 , 端到端的建模可以有效的缓解分段建模所带来的信息损失 , 以及错误的级联传播问题 。
讯飞首先把端到端建模技术成功应用到了复杂场景下的语音识别 , 构建了前后端一体化的语音识别系统 , 提高复杂场景下的语音识别效果;另外把端到端建模的技术成功运用到语音的翻译任务上 , 实现了CATT语音翻译技术 , 该技术可以把一个语种的语音输入自动识别并翻译成另外一个语种的文本进行输出 , 实现了语音识别和机器翻译任务的统一建模 , 缓解语音识别错误对翻译效果的影响 。
无监督训练 。 包括弱监督、半监督等一系列创新 。 旨在破解对大规模无监督训练数据的依赖造成的人工智能突破瓶颈 。
无监督训练在语音合成上的应用 , 就有为了降低对语音合成音库的规模 , 提出来的听感量化的编码的方法 , 借助语音识别数据 , 以其他人的语音合成音库来实现多人的混合模型的训练 , 只需要少量发音人的数据 , 就可以实现这样发音人的高音质语音合成 。 今年进一步提出了全属性可控语音合成方法 , 实现了从海量语音数据中无监督的学习发音内容、情感和音色这三个属性 , 并且使用信息约束训练 , 使得三个属性相互结合 , 可以实现对音色、情感等属性的自由控制 。
讯飞的语音识别有35个语种的识别的识别率 , 从80%进一步提升到了90% , 而语音合成的24个语种的自然度也从3.5分提升到了4.0分 。 同样也在语种的机器翻译 , 多语种的图文识别上都取得了显著进步 , 在6个少数民族语言方面也实现了同样的技术进步 , 跨过了使用门槛 。
另外一个重要应用领域 , 就是基于弱监督的句子级的语义表达 。 基于这样一个框架 , 以及在易训的模型技术上的一些积累 , 完成了中文、粤语以及6个少数民族的相关模型 , 推动少数民族语言的认知智能等相关技术的研发 。
多模态融合 。 人机交互是多模态融合的典型应用场景 。
【科大讯飞|胡国平:把握好系统性创新的三个关键,科大讯飞坚持源头创新引领】一个多模态融合的例子是复杂文档的结构化 。 比如考试中的一份试卷 , 具有各种各样的题目、表格、插图 , 以及学生手写的的答题信息等等 。 科大讯飞基于多模态信息融合的技术 , 不仅使用题目中的相关的语义的信息 , 还用到了各种版面的特征 , 例如“表示质地大小”这样的视觉特征 , “表示缩进居中”这样的空间特征等等 , 最终实现了不同场景下文档结构化的精度的提升 。 类似于教育场景下的教辅作业的语义结构化的精度 , 从原来92%提升到了98% 。 同样的技术被推广到了更多的行业文档 , 例如合同、简历、文书等等上 , 旨在为开发者在自己不同的行业领域开展智能化文档处理提供更好的技术支撑 。
相关经验推荐
- 操作系统|盘点2021年手机市场,苹果、台积电和联发科大都是赢家
- 科大讯飞|带上科大讯飞办公本X2,你就是打工人中最靓的仔
- 耳机|设计精巧颜值在线,科大讯飞智能耳机佩戴舒适功能也很突出
- 科大讯飞|天玑9000给绿厂抢首发?Find X5携一加10或率先搭载
- 芯片|从00后心动公司到年度最佳雇主,科大讯飞这点很赞
- 科大讯飞|海尔冰箱“不新鲜超市”线下营业啦
- 科大讯飞|搞机实验室:全网首测飞鱼OS4.0,科大讯飞的车机有哪些功能?
- 高通|2021年联发科大丰收:利润大涨400%,出货量全球第一,明年全面冲击高端
- 科大讯飞|Meta资助开源游戏引擎Godot,开发AR/VR形式的游戏引擎
- 科大讯飞|从语音产业的拓荒者到领头羊,科大讯飞智能语音的探索和突破
