折叠屏|【预见】自动驾驶与元宇宙的“起点”?智能语音赛道前景广阔!

折叠屏|【预见】自动驾驶与元宇宙的“起点”?智能语音赛道前景广阔!

文章图片



【折叠屏|【预见】自动驾驶与元宇宙的“起点”?智能语音赛道前景广阔!】这两年很火的高端科技 , 一个是自动驾驶 , 一个是元宇宙 , 而这都离不开“人机交互” 。 如何让机器识别人类的自然语言并做出准确判断?这就需要语音识别技术 。
近年以来 , 随着智能电子设备迅速普及以及工业互联网等应用场景的大幅拓宽 , 智能语音识别技术得到了长足的发展 , 与此同时 , 智能语音市场也在急速扩容 。
最新发布的《2020-2021中国语音产业发展白皮书》显示 , 2020年我国智能语音市场规模已经达到了217亿元 , 同比增长31% , 而2021年同比增长可达44% 。
智能语音是人工智能AI的重要应用领域 , 预计2025年我国智能语音垂直行业应用核心产品规模有望达到159亿元 , 2019-2025年复合增速23% , 而智能语音带动的整体市场规模 , 有望在2025年达到875亿元 , 2019-2025年复合增速25% , 产业前景十分广阔 。
定义与发展阶段
语音识别是人机交互的入口 , 是指机器/程序接收、解释声音 , 或理解和执行口头命令的能力 。 说起来很高端 , 其实语音识别场景很常见 。 举个例子 , 比如被大家“玩坏”的Siri(苹果智能语音助手)、微软Windows10系统自带的小娜(Cortana) 。
在智能时代 , 越来越多的场景在设计个性化的交互界面时 , 采用以对话为主的交互形式 。 一个完整的对话交互是由“听懂——理解——回答”三个步骤完成的闭环 , 其中 , “听懂”需要语音识别(Automatic Speech Recognition ASR)技术;“理解”需要自然语言处理(Natural Language Processing NLP)技术;“回答”需要语音合成(Text To Speech TTS)技术 。 三个步骤环环相扣 , 相辅相成 。 语音识别技术是对话交互的开端 , 是保证对话交互高效准确进行的基础 。
换个说法 , 在“人机”智能交互过程中 , 人的语言要被机器识别、理解、再反馈给人 , 就是这个过程 。 语音识别是第一步 。 想到了什么?比如现在的微信“语音转文字”功能 。 此外 , 语音识别的应用场景其实非常广泛 , 人机交互这个场景是很有想象力的 , 比如自动驾驶领域 , 甚至机器人、汽车人?想象下 , 你对汽车说“我要去哪” , 汽车准确识别然后自动导航到目的地 , 是不是很有科幻感?(变形金刚?)
语音识别技术并不是这几年才有的 , 自20世纪50年代开始步入萌芽阶段 , 发展至今 , 主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段 。 目前 , 语音识别主流厂商主要使用端到端算法 , 在理想实验环境下语音识别准确率可高达98%以上 。
在2018年的CES上 , 人工智能作为未来科技最重要的技术 , 贯穿当年CES展示的几乎所有领域 。 自动驾驶和语音识别是那一届的亮点 。 而在2021年随着自动驾驶的深入商业化 , 语音识别这项技术又被市场所关注 。 (备注:CES , 国际消费类电子产品展览会 , 始于1967年 , 是世界上最大、影响最为广泛的消费类电子技术年展 , 也是全球最大的消费技术产业盛会 。 简单来说 , 这个展览每年都有最尖端的科技展示 , 而且是已经落地或者将要落地的商业化产品 , 很多改变你我生活的“黑科技”就从这个展会上展示给世人)
不过 , 在今年(2022年)CES上 , 视觉识别技术和语音识别一样 , 同样开始被科技公司所重视 。 比如这几天的CES大会上 , 英伟达(Nvidia)发布了基于DRIVE Concierge互动AI——NVIDIA Omniverse Avatar正式版 , 宣布结束Beta测试 , 正式向用户开放 。

相关经验推荐