引言
“十四五”规划中提出,要瞄准人工智能等前沿领域,:实施一批具有前瞻性、战略性的国家重大科技项目。人工智能领域的研究主要包括机器视觉、智能语音、自然语言处理和基础硬件等。
智能语音作为人工智能的核心技术之一,随着人工智能时代的到来,加以国家政策以及技术发展等因素的驱动,智能语音必将会消费级以及企业级等得到更深度的发展。
智能音箱,如小度、天猫精灵等,作为智能语音在消费级最外显的应用,市场渗透率已经相当于2012年智能手机的市场渗透率,达到20%,有广阔的需求市场
▍摘要
智能语音有2C与2B两细分赛道: 2B市场级,智能语音即将触及行业核心,以智慧医疗、智慧教育智慧客服等为主,智慧医疗行业建设规模已达1040亿元。2C消费级,以AlOT为核心,物联网为主逻辑,包括场景主要有智慧生活、智能驾驶、智能家居、智慧办公等,2020年消费级AIOT市场规模已达到1753亿元。
三重因素驱动智能语音行业发展: 技术突破、政策利好,刺激智能语音行业自主发展,外加疫情影响催化智能语音发展过程。疫情期间,科大讯飞积极响应号召,向21个省6500余所中小学提供人工智能教育产品和服务,累计服务师生超过1500万,累计访问量超过21亿次。
未来智能语音应用场景: 交互成为智能语音的主要应用场所,以消费级应用为主。预计2020年,车载语音的市场规模将增至27亿元,2023年,90%的智能手机都将会配置AI语音助手。在企业级应用几乎触及行业核心,以技术应用为主,信息同步为辅,预测2023年,人工智能在线教育规模将达680.5亿元。
01 行业概览
▍定义
语音机器人是指有较强对话能力的机器人。如引导机器人、手机语音助手等。发展到现在,语音机器人不单单是简单机械对话,更多是智能语音。智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、语音交互等。
人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最火热的领域,主要解决的是感知智能的需求,就是使得人工智能能够感知周围的世界,能够“听见”或者“看到”。
自然语言理解、智能会话、智能决策、人机交互等技术更加侧重的是认知智能的领域,解决“听懂”、“看懂”,并且根据学习到的知识对人类的要求或者周围的环境做出反应的能力。
在关键技术层中,语音识别、自然语义理解(Nature Language Process,NLP)、机器学习领域的关键技术在人工智能技术当中居于重要地位,是人机交互技术的基础。
▍产业链
智能语音产业主要分上游基础设施供应商、中游智能语音服务商与下游应用领域。
▍发展历程
智能语音主要经历了四个阶段:模板匹配与特征分析方法微主导的认知阶段;以概率统计建模方法为主导的起步阶段;以深度神经网络为主导的发展应用阶段以及综合应用阶段。
02 行业现状
智能语音市场的城市、政府和资本的扶持与重视以及数字化、智能化的市场需求不断扩大中国智能语音行业市场规模将进一步增长,预计在2030年市场规模将达到1452亿元
[注] 语音市场包含教育产品市场、消费电子市场、智能平台市场、电信运营商市场、智能服务市场和车载语音市场
虽然我国智能语音发展迅速,但是与机器视觉相比,落地进程仍相对落后。一方面其数据的体量、密度相对有限,另一方面其涉及的声学研究、模式识别研究、通用NLP 研究及垂直场景的深度语义理解等还未完全成熟(尤其2016年以前),因此在交互体验、使用效果场景优化等方面都仍有较大空间。
▍细分赛道
智能语音技术和自然语言理解技术快速进步,目前已在2C消费级的智慧生活、智能家居、智慧办公、智能驾驶;2B企业级的智慧医疗、智慧教育、智能客服等多个领域实现场景应用。
消费级应用立足于个人日常生活,本质上是智能语音技术(以语音助手为代表)对于各类终端的赋能,是AloT大生态的重要构成。
相较于消费级应用,专业级应用具有更高的垂直属性和know-how(即行业秘诀)壁垒,服务与特定场景。
▍科技、互联网企业布局,行业一枝独秀
智能语音科技企业-以科大讯飞为代表的大型智能语音科技企业凭借其较强的研发优势,以60%的市场份额稳居第一,在智能技术日渐成熟、数字产业基础设施日趋完善的发展下,科大讯飞逐渐从单一的智能语音技术服务商转型为全方位人工智能技术服务商。
市场规模相对较小的参与者如捷通华声、思必驰云知声等,以垂直领域和细分场景为突破口切入智能语音产业凭技术和产品创新快速成长。
互联网企业-以阿里、百度等为代表的互联网巨头凭借其庞大的用户资源、各细分场景的数据积累在语音交互技术领域持续发力,占据约20%的市场份额。在智能语音领域,互联网巨头是市场驱动型企业,主要凭借其较强的C端产品经验及用户数据为产品的功能化设计提供基础,基于客户需求驱动产品的发展和落地。
[注] 语音市场包含教育产品市场、消费电子市场、智能平台市场、电信运营商市场、智能服务市场和车载语音市场
03 驱动因素
▍劳动力影响&疫情催化
受新冠疫情催化,人工智能应用场景迅速铺开。一系列基于AI算法的软硬件设施在抗疫的方方面面发挥巨大作用。智能语音在减少医患接触,及确保教学质量等方面发挥巨大作用。
智能语音,作为人工智重要组成部分,应用下沉加速。教育、医疗、驾驶三个场景的需求增加将最为明显,语音机器人发挥重大作用。
人口红利逐步消失,机器人将取代部分岗位。2021年4月,中国人民银行发布的《关于我国人口转型的认识和应对之策》显示,2019年中国劳动力人口(15-65岁) 占总人口的70.6%,老年人占12.6%,少儿人口占16.8%;预计中国人口将在2030年达到峰之后趋于下降,同时老年人占比继续增加,小儿和劳动人口继续减少根据测算,我国人口红利至2030年只剩8年。人口红利逐渐消失自动化和机器换人成为发展趋势。语音机器人将会取代部分人工客服、人工呼叫等岗位。
▍政策利好
“十四五”规划将人工智能列为前沿科技领域的“最高优先级"包括智能语音在内的人工智能产业及相关业务将受到政府支持进一步迎来有利宏观环境。
政府利好政策,进一步推进人工智能与各应用领域的深度融合。
随着中央政府政策陆续出台,各地方政府对于人工智能产业也日益重视。截至目前,中国已有超过20个省市出台了人工智能产业相关的利好政策。
▍技术高峰期,驱动语音机器人的发展
智能语音主要研究如何通过语音实现人机交互,相关支撑技术主要可分为基础语音技术、智能化技术以及大数据技术。2020年与2021年我国智能语音技术在多方面实现创新,取得突破性进展。
从语音技术成熟度曲线来看,多数语音技术已经进入稳步爬升期,甚至语音识别技术已经处于生产成熟期,这意味着智能语音技术逐渐成熟,语音机器人未来几年市场将维持高速发展。
04 未来应用场景
▍智能车载——车载语音交互成为智能驾驶核心细分领域
车载语音交互将成为标配,车载环境规则清晰需求明确,是语音交互落地的绝佳场景。而语音交互解放司机双手提高驾驶安全性,能够大幅提高用户驾驶体验。
▍智能家居——智能音箱交互技术升级,用户体验提高
智能音箱市场很难存在群雄并起的格局,中小玩家难以支持,已经进入巨头主导的格局。为在激烈的行业竞争中脱颖而出,企业必将提升内容服务质量与语音交互技术,带动行业发展。
▍智慧生活——智能手机与智慧穿戴成为语音助手交互主要载体
根据StrategyAnalytics数据,2018年全球智能手机中就已有47.7%配置语音助手,预计2030年达到90%。
智能可穿戴设备趋于小屏化、无屏化,智能语音成为其天然入口。2023年中国智能可穿戴设备行业的市场规模预计达到913.7亿。
▍智慧办公——翻译机成为语音机器人在智慧办公方面的集中体现
出境旅游、教育刚需和经济全球化等因素持续驱动产业规模增长,自动语音识别、机器翻译、语音合成、图像识别等AI技术大幅提升翻译机性能加速产业发展。
▍智慧教育
通过语音转录、语音识别等技术实现授课语音转录为文字、利用多模态识别进行课堂质量监测。为解决教育资源的复用、增加学习交互体验感等诉求,促进了智能语音技术在线上口语测评、虚拟教师等领域的应用。
▍智慧医疗
智慧医疗领域,语音电子病历系统需求正在增加。通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间。除症状外,一些专业术语如牙位图、化学式、医学药品、特殊符号等都可口述生成。
▍智慧客服
智慧智能语音在呼叫中心领域应用已较为广泛,主要应用于智能客服,目前全国超过半数的省级电力呼叫中心已经使用语音产品。因此,未来智能语音将随客服着呼叫中心规模稳定增长。
▍智慧政法
智能庭审,采用多种方言语音识别、语音合成技术,庭审笔录自动生成。电信网络反欺诈,自动提取声纹与黑名单对比,提示重点人员可疑行为虚拟法官,通过语音合成和虚拟形象,以虚拟A形象同当事人进行初步沟通。
来源 | 智能机器人系统