南宫28 超全面的语音交互知识总结：从原理、场景到趋势

栏目：新闻资讯发布时间：2023-10-14

1. 什么是语音交互？语音交互（VUI）指的是人类与设备通过自然语音进行信息的传递。

1. 什么是语音交互？

语音交互（VUI）指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程：

超全面的语音交互知识总结：从原理、场景到趋势

（1）ASR

用于将声学语音进行分析，并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段：

声学模型可以理解为是对发生的建模，它能够把语音输入转换成声学表示的输入，更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。

（2）NLP

用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是：将用户的指令进行（领域）→（意图）→Slot（词槽）三级拆分。

以“帮我设置一个明天早上8点的闹钟”为例：该指令命中的领域是“闹钟”，意图是“新建闹钟”，词槽是“明天8点”。这样，就将用户的意图拆分成机器可以处理的语言。

（3）Skill

也即AI时代的APP。Skill的作用就是：处理NLP界定的用户意图，做出符合用户预期的反馈。

（4）TTS

即语音合成，从文本转换成语音，让机器说话。TTS业内普遍使用两种做法：一种是拼接法，一种是参数法。

2. 语音交互有哪些优劣势？ PART 1: 语音交互的优势

优势1：信息传递效率高

百度语音开放平台的研究结果显示，相比于传统的键盘输入，语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍，信息传递效率进一步可拆分为4类：

检索高效：针对复杂的输入词，尤其是在输入方式不便的场景下，语音交互更高效。例如电视场景下进行电影搜索。跨空间便捷：远场语音交互可以跨3~5米进行交流，针对需要跨空间的操作，语音交互更高效，例如：智能家居控制。跨场景便捷：语音交互的潜在好处时可以根据说话内容自动判断意图场景，在需要频繁跨场景交互的场景下语音交互更高效。支持组合指令：语音交互可以一次性下达多条指令，然后分别执行，在需要支持多意图同时传递的场景下语音交互更高效。假设你今晚想要看一部电影，你可以选择说：“播放刘德华的电影电影要四星以上并且是免费观看的。”

优势2：解放双手和双眼

通过语言交互可以将手和眼睛空起来处理其他事情，在需要多感官协同的场景下效率更高。例如：车载场景通过语音点播音乐，医疗场景医生在沟通病情的同时记录病历，工业场景在双手占用的同时下达指令。

优势3：使用门槛低

优势4：传递声学信息

语音机器智能销售人员招聘_智能语音销售机器人_智能语音机器人销售好做吗

PART 2：语音交互的劣势

劣势1：信息接收效率低

语音输出是线性的，当别人说话时，你可能得等全部说完后才能理解，无法像文字一样可以跳过阅读；语音交互也会增加用户的记忆负担，尤其是面临多项选择并且选项内容较长时。

因此它无法同时输出很多内容，在接受信息和多选择交互时，视觉具有更大的优势，声音的效率不高。总结来讲，语音交互针对单向指令是更有效的，而双向交互不是很有效。

劣势2：嘈杂环境下语音识别精度降低

语音识别需要清晰的识别出人声，包括将人声和环境声进行分离，将人声和人声进行分离。嘈杂环境使得人声的提取变得非常困难，尤其是针对远场语音交互，噪音的问题更加突出。

目前业内普遍使用麦克风阵列硬件和相关算法来优化该问题，但是无法完全解决，例如远场安静环境下语音识别准确率能达到95%，但是在嘈杂环境下仅能达到80%出头。但是随着技术的进度，嘈杂环境下的远场语音识别准确度也肯定会逐步完提升。

劣势3：公开环境下语音交互具有心理负担

语音交互的心理障碍是用户不能预设和预先判断。在同一情况下，不同的人可能会产生完全不同的行为和期望。这给设计者带来了很大的麻烦，也给用户带来了不确定性。从心理体验来看，没有多少人愿意对着机器说话，因为有可能会得到毫无感情甚至是错误的反应

3. 语音交互适合什么场景和设备？

我们判断什么场景和设备适合增加语音交互，根据语音交互的优劣势分析，得出以下加分项和减分项，为了简单起见，每个得分享赋予相同的权重，然后计算综合得分，将适用程度划分为高、中、低3档，分别记2、1、0分。

原则1：每个设备类型仅考虑起本身的功能，不考虑因为入口性质附加的额外功能，例如智能音箱，现在除了音箱属性，被赋予了天气、智能家居等其他属性。未来形态下家庭语音入口会分布式的，智能音箱被赋予的生活助手的角色也会被剥离。

原则2：设备的功能考量时会考虑现在还不具备但是以后会延展的相关功能，例如冰箱，支持查询冰箱内的物品情况。

加分项：

减分项：

下表为各的场景和设备适合语音化的得分：

智能语音机器人销售好做吗_智能语音销售机器人_语音机器智能销售人员招聘

（1）家居场景

家庭环境比较封闭和私密，并且噪音少，是实现语音交互的很好环境。

电视：机顶盒视为和电视同类，电视本身普及率及使用频次高，生态内容丰富使得其操作相对复杂，但又受限于遥控器这种低效的输入方式，使得电视成为最适合进行语音改造的设备，但是受囿于价格昂贵，尝鲜门槛高，所以改造的节奏相对较慢，但是新一代的电视语音化肯定是不可阻挡的趋势。平板：市面上目前流行的带屏音箱，更合适的说法应该是语音平板。音箱：音箱因为其低廉的成本（无需屏幕和视频资源）而率先引爆市场。灯：虽然指令简单，但是因其操作频繁且需要起身走到面前操作，跨空间成本高，使得灯具被语音化的诉求也较高。但是灯最适合的语音化是本地离线指令，也即通过“开灯”、”关灯”本地直接识别并控制灯具，无需加唤醒词，也无需先传到云端，云端处理完再传到本地，更简洁更快速。空调：空调因此相对高频的使用和较为复杂的指令，和灯具类似具备一定的语音化必要。冰箱：基本没有语音化必要，除非冰箱承载的功能做了极大延展，例如冰箱增加屏幕，同时作为餐厅的电视使用，那么其语音化的必要性与电视一致。洗衣机：基本没有语音化必要。

（2）车载场景

随着车联网和智能汽车的兴起，越来越多的功能被搭载在车机上。层出不穷的功能和日趋复杂的界面形成了对驾驶者注意力的争夺，新的矛盾由此诞生。车载语音技术的独特优势——帮助驾驶者降低对车内设备的操作依赖，增加驾驶安全系数。

智能语音机器人销售好做吗_语音机器智能销售人员招聘_智能语音销售机器人

车载场景相对比较私密，但是噪音相比家庭场景较高，尤其是当开窗之后风噪更大。但是因为开车时手和眼睛都被占用，语音成为交互的最佳选择，如接听电话、开关车窗、广播音乐、路线导航等语音指令，这就使得驾驶更加安全，可以更专注于路况。

车载常用语音功能如下：

智能语音销售机器人_语音机器智能销售人员招聘_智能语音机器人销售好做吗

（3）医疗场景

病历录入：语音识别在医疗中的应用主要集中在直接将语音转成结构化电子病历，方便医生随时查阅，大大减轻了工作量。可以为医生节省手写病历的时间，同时也可以为医患纠纷提供材料佐证。

语音识别技术已经在以美国为首的西方国家成功运用到医院放射科、病理科、急诊室等部门中，临床中使用语音识别录入的比例已达到20%以上，并能够明显降低医生工作强度，提高工作效率，降低了医院日常运作成本。医疗业务营收占全球最大的语音技术公司全部营收的50%。

（4）企业场景

智能客服：智能客服分为语音呼叫中心和在线客服两块来看。在客户服务行业，当用户请求接入后，先由智能客服机器人解答80%的常见问题，剩下20%复杂问题再由真人专家客服来回答解决。智能客服机器人创造的整套流程已经完全改变了整个客服行业的劳动力结构和工作方式。

（5）教育场景

语音平板：在少儿教育场景，语音可以发挥的空间会非常大，一方面少儿的文字学习还没有非常完善，因此在信息录入和互动方面，语言是更低门槛的交互选择，另一方面，语音可以进行中英文发音的测评和纠正，对少儿的学习成长价值更大。

（6）出行场景

智能耳机：搭配工具来进行语音交互会使得私密性更强而且更加方便。耳机作为本身就是穿戴中的一种产品，携带方便，决定了它有更多自然的使用场景，耳机这样私人且私密化很强的产品，无论人们是在上班通勤、户外运动还是在旅行时也能保持更高的使用率，戴在耳朵上的耳机，离人的语言器官很近，当你和耳机进行语音交互的时候，更像是和朋友交谈。

使用耳机来与手机的语音交互模式连接时，是不是也可以使用一些动作来唤醒它，例如：去敲击耳机，通过这类动作去唤醒可能会比喊它更加的自然，即使在公共场合也会避免尴尬出现。

（7）机器人

语言交互是人类日常最常用的交互方式，机器人自然要集成语音交互的功能。机器人分为消费级机器人和商户级机器人，消费级机器人使用语音传递情感和提升交互效率，商户级机器人使用语音传递品牌感和提升服务效率。

（8）安全与鉴权

声纹：是无感知的身份识别，声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

美国研究机构已经表明在某些特点的环境下声纹可以用来作为有效的证据。并且美国联邦调查局对2000例与声纹相关的案件进行统计，利用声纹作为证据只有0.31%的错误率。目前利用声纹来区分不同人这项技术已经被广泛认可，并且在各个领域中都有应用。

声纹常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等，说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。

4. 语音交互与其他交互方式的融合？

语音交互有着信息接收效率低、嘈杂环境识别精度低、公开环境心理负担的劣势，因此在很多场景下纯语音交互很受限，但是这些交互方式是可以通过其他交互进行弥补的。

毋庸置疑，在接下来的几年内肯定会有更多不同结合方式的产品出现。

智能语音销售机器人_语音机器智能销售人员招聘_智能语音机器人销售好做吗

（1）语音输入/视觉化输出

近些年，市面上有许多产品合入了语音输入，其中有很多是有显示屏的产品。在这些产品上，我们允许用户语音输入，而用界面显示输出的信息。

语音智能电视也是一个很好的例子。它们没有能够支持复杂输入的硬件设备，而本身又有足够多的功能足以支撑自然语义查询。比如通过语音直接说“播放流浪地球”，要比用遥控器上的十字箭头方便多了。

语音智能屏幕是另外一个例子，从18年下半年语音智能屏幕开始流行，主要针对老人和小孩的人群，对老人的价值在于可以通过语音交互，搜索想看的影视内容，对儿童的价值，在于语音沟通、影视播控以及声音的评测。

实际上，那些有复杂功能，需要复杂输入，而这些输入都可以用语音命令代替，同时返回的结果不适合机读出来的系统，都适合使用语音作为输入方式，而用视觉作为输出方式。

（2）混合模式

许多设备都在朝着混合模式的方向发展，它们会将语音、物理输入和屏幕、语音输出结合。导航app就是一个将这些交互手段结合的典型例子。

用户能够触控拖动地图来查看，用物理按键或虚拟键盘输入。当驾车时，可以通过直接说目的地名称来开启导航，用这种方式用户可以不用将目光移向屏幕或用手来操作。语音输出可以输出导航的命令指示，而例如周围道路拥堵状况等较为难以描述的信息可以使用屏幕显示。

这是一种很好的输入输出结合方式，每种交互方式都将自己的优势发挥出来。整个导航系统会根据用户需求和信息的复杂程度来选择信息的呈现方式，一方面，用户在特定场景下可以不用手眼就能操作，而同时用户也能选择在另一些场景下使用屏幕。

但这种方式的设计还很少见，因为上述的方式是基于对用户的使用方式有深刻理解的基础上的。导航系统在汽车内使用语音还是一个比较明显的场景，但不是所有的产品都有一个明确的使用环境，所以判断什么情况下使用语音交互是比较困难的。

5. 语音交互的未来

虽然目前的语音识别技术已经能够让机器听懂大部分人类的声音，但离“贾维斯”这种假想的超级智能助理的交互能力还很远，语音识别技术的发展方向将从识别到感知认知。

趋势1：免唤醒交互

远场语音交互，出于意图识别考虑，增加唤醒词作为对话开始的条件，但是唤醒词也无形中增加了沟通的成本。尤其是在一些多轮次交互方案中，例如：你想看电影，主流程需要“我要看电影”-“播放第3个”-“全屏”-“快进3分钟”，如果每次都要唤醒，用户体验很差，部分情况反而不如遥控器效率高。因此在特定多流程场景下迫切需要免唤醒交互。

趋势2：离线语音识别

离线语音识别指的是在本地直接进行指令的识别和处理，而无需连接到云端，好处是一方面无需唤醒词，另一方面无需联网，速度快。针对灯、空调、电视等设备，采用离线指令识别体验更好，例如直接对设备说“开灯”和“关灯”可以快速实现台灯的开和关。

趋势3：多通道交互

IOT时代家庭的联网设备越来越多，但是体验提升有限，直到IOT有了语音AI的加持，彻底宣告AIOT时代的到来，通过语音设备可以控制联网设备，进一步促进了家庭智能设备的渗透和覆盖，2018年中国智能音箱销售量约2200万台，随着家庭智能设备的越来越多，用户的需求也逐步出现新的特征。

多通道交互就是综合使用多种输入通道和输出通道，用最恰当的方式传递服务，满足用户需求。

通俗一点讲，多模态互动就是将智能设备的通道进行注册和管理，根据用户的需求，给不同的通道分配相应的任务，以期用最恰当的方式去满足用户需求。例如：将智能音箱和电视作为一个系统进行多通道交互，可以综合使用它们5个输入和输出通道。举个最简单的例子：当我问音箱天气的时候，可以将天气的图形通过电视进行显示和播报，更用户更直观的体验。

MCUI在家庭场景落地的最典型案例，就是智能音箱和机顶盒的组合，可以实现带屏智能音箱的所有功能，并且体验更佳。

说到智能语音机器人，首先我们需要转变一个观点，智能语音机器人不是语音提醒，也不是智能语音短信一类的东西可以相提并论的，智能语音机器人是一个科技进步时代发展而得出的产物，它拥有和人类语音服务机会没有太大差别的语音服务。是高科技，高智能的。既然是高科技，高智能，那么智能语音机器人自然也有自己的营销技巧。甚至还会有许多正常人类都会掉入沟里的套路。

语音机器智能销售人员招聘_智能语音销售机器人_语音机器智能销售人员是什么

1.智能语音机器人的营销技巧：

语音机器智能销售人员是什么_智能语音销售机器人_语音机器智能销售人员招聘

首先我们要知道，智能语音机器人再聪明，那也是个机器人。它的一切智慧都是人类赋予的，所以我们要提前设定好智能语音机器人的一些营销技巧。让其可以快速的分辨出顾客所说的话，做到对答如流。那么要实现这个东西靠什么呢？

当然是话术技巧的使用。将智能语音机器人可能遇见的任何问题都提前想好，并且制定成相应的话术，将其输入到智能语音机器人中。

2.智能语音机器人的套路

智能语音销售机器人_语音机器智能销售人员是什么_语音机器智能销售人员招聘

说是智能语音机器人的套路，其实也不过是人类的套路罢了。智能语音机器人的营销技巧也是一样，都是人类销售摸索出来的一些销售套路。但是智能语音机器人有个很大的优势就是，如果要培养一个好的销售人员出来的话，需要非常久的时间，并且还可能面临着对方跳槽的风险。这也让许多老板头疼，但是有了智能语音机器人后就不同了。只需要将销售精英的一套套知识输入进去就可以了，你就相当于多了很多很多个销售精英。所以就算是智能语音机器人，你也不要小瞧它，因为它可能是一个非常有套路的智能语音机器人，一不小心就会将你套路进去。

3.智能语音机器人营销技巧

智能语音机器人大多都支持话术营销话术的直接导入，这样就十分的方便快捷了，针对不同的客户人群，还可以有针对性的修改。让智能语音机器人的对话更流畅，营销技巧也对应的上。这些方法都十分的简单，学习起来也很容易上手。贯文线索提供的智能语音机器人还具有打断对话功能，完全和真人对话没有差别。

语音机器智能销售人员招聘_语音机器智能销售人员是什么_智能语音销售机器人

4.总结

一套好的智能语音机器人营销技巧话术必须具备一下几点，第一不要冗长、第二不要过于复杂、第三要精益求精，不要繁杂，一定要针对自己的业务，这样才可能很好的促成，达到理想的营销效果，贯文线索满足这些要求。

现在智能语音机器人其实在实际应用的过程中，我们必须也要重视它的不是万能的，必须要配合客服才能完成，‍‍因为如果不了解这些的话，可能也会使得我们在日常使用的过程中难以达到一个好的效果。特别是在使用智能语音机器人的过程中‍‍必须也要重视智能语音机器人的营销话术的优化，把它的一些相关的营销问题更好更新，比如说一段时间了之后，我们可以总结一下客户经常问哪些问题，然后把这些问题做一个分析，‍‍并且进行一个营销话术方面的优化，这样可以根据这些问题引导客户消费。

使用智能语音机器人可访问：

导航： X技术> 最新专利>五金工具产品及配附件制造技术>一种智能装卸机器人装卸方法与流程

技术编号：

成都智能机器人有限公司_成都智能装卸机器人_成都智能装备

提示：您尚未登录，请点登陆后下载，如果您还没有账户请点注册，登陆完成后，请刷新本页查看技术详细信息。

成都智能机器人有限公司_成都智能装备_成都智能装卸机器人

本发明涉及机器人领域，具体是一种智能装卸机器人装卸方法。背景技术目前，机器人(Robot)是自动执行工作的机器装置。它既可以接受人类指挥，又可以运行预先编排的程序，也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代人类工作的工作，例如生产业、建筑业，或是危险的工作，在机器人装卸的过程中经常会出现智能化较低，压紧装置力度不够，不能够与物品较好贴合的情况出现，因此发明一种智能装卸机器人装卸方法很有必要。发明专利内容本发明专利提供一种智能装卸机器人装卸方法,包括机器人、监控装置、压紧装置...

成都智能机器人有限公司_成都智能装卸机器人_成都智能装备

注意：该技术已申请专利，请尊重研发人员的辛勤研发付出，在未取得专利权人授权前，仅供技术研究参考不得用于商业用途。

该专利适合技术人员进行技术研发参考，增加技术思路，做技术知识储备，不适合论文引用。

详细技术文档下载地址↓↓提示：您尚未登录，请点登陆后下载，如果您还没有账户请点注册，登陆完成后，请刷新本页查看技术详细信息。

上一篇：南宫28 安和健康：多年深耕大健康，依托体检数据追踪，构建“线上+线下”健康管理体系

下一篇：南宫28 榜单里的佛山｜区域发展潜力全国第四，佛山拥有怎样的机器人产业版图？