“Hey Siri”要成为历史了？

您现在的位置是：首页 > 生活

“Hey Siri”要成为历史了？

2023-07-21 16:55:06

“Hey Siri”要成为历史了。

今年 6 月，iOS 17 发布开发者版本，其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——

用户仅需说“Siri”就能唤醒语音助手。

但就是这么一个简单的变化，却愁坏一大堆程序员。从去年年末消息放出到现在将近半年，

iOS 依然没有正式更新该功能。

拿走一个“Hey”，对语音助手来说有多难？

为什么不要“Hey”了？

对着智能音箱或语音助手喊“Hey Siri”和“小爱同学”，这都叫做“唤醒词”

，目的是让智能音箱知道你要开始对它说话下达指令了——这就像过年回家，你奶喊你：嘿，狗剩～赶紧把院里的鸡喂了去！

如下图所示，语音助手的工作分为四个模块，像人一样，它也需要先听到语音、理解语音、才能做出反应并通过语音反馈给用户。

语音助手的工作模块｜作者提供

其中“唤醒质量”是衡量语音助手好坏的重要指标，业内一般通过两个标准来衡量。第一项是识别的准确率，比如一共说 1 万次唤醒词，能成功识别出多少次。在实际用户数据下，这需要能达到 99% 左右。第二项是误唤醒率，在持续语音输入的环境下，24 小时内误唤醒的次数。这个指标跟具体播放的内容有关，但一般一天内要少于 2~3 次。

目前业内公司采取用特定的唤醒词来触发语音助手的方案，比如苹果语音助手 Siri 的唤醒词为“Hey Siri”，小米的是“小爱同学”，阿里的是“天猫精灵”，百度的是“小度小度”，亚马逊 Alexa 的是“Alexa”“Amazon”“Computer”“Echo”“Ziggy”（是的这五个都是它的唤醒词）。

唤醒词音节越多越复杂，唤醒成功率就会越高，误唤醒率就会越低。

但是，在实际使用当中，更短的唤醒词更受用户的喜爱，特别在用户急于发出指令时。

像三星语音助手的唤醒词是“Hi Bixby”（大致发音为：嗨碧克斯碧），由 5 个音节构成，但是大量的用户在使用中会减少一个音节，发音为“嗨碧克斯”或者“嗨碧斯碧”。

2018 年，微软就将旗下语音助手 Cortana 的唤醒词由“Hey Cortana”改为“Cortana”，现在轮到 Siri。“Hey Siri”由三个音节构成，“Siri”由两个音节构成。虽然只是少一个音节，但也是语音助手升级的必经之路。

那之前“Hey”这么一下为了啥？

可是越短的唤醒词，越容易跟其他词混淆，

与“Siri”具有类似发音的词汇很多，比如 Syria（英文：叙利亚）、Sirie（英文：人名），Sire（英文：陛下），容易产生误唤醒。为了提升唤醒的准确性，音节最好丰富一点。

其实哪怕是丰富些的“Hey Siri”，也有很多用户抱怨在说“History”（英文：历史）时，会误唤醒出 Siri。

此外在噪音较大，或者手机离说话人较远的情况下，“Siri”的第一个音素，即发音类似于“斯”的部分（见图 1 绿框），声音频率较高——频率高的声音衰减快，

容易与环境噪音混淆。

这意味着在用户开车、听广播、看电视或者远距离呼叫 Siri 时，Siri 可能更难唤醒。

Hey Siri 音频及其频谱图｜作者提供

而“Hey”是包含一个较大能量的低频发音，可以将比较短而且能量小的其他音素（主要指 Si 和 Ri 这两个）与噪音区分开来。

你是省事了，Siri可费了劲

关于发音相近的词导致的误唤醒问题。一种方案是使用对比学习（contrastive leaning）等方法，刻意消除易混淆词语的误唤醒。其原理类似于，单独拎出来“History”和“Syrian”等音频，告诉唤醒模型，这些发音是错的！

但这种方法必须在事前由人来找出容易混淆的单词，有一定局限。

另外一种解决误唤醒的方案是通过语音识别以及语义信息的分析，综合判断用户的发音是否意图在唤醒手机语音助手。

例如“Hey Siri”发音虽然与“History”相近，但是用户在说出“Hey Siri”之后的内容，大概率与说出“History”之后的内容有很大差异。

通过核对唤醒词之后的语音，可以让语音助手在一些聊天场景中“保持冷静”，比如当你和朋友聊天刚好提到 Siri，但并不是为了唤醒它时。

使用声纹识别技术也可以提高唤醒的准确性。

类似于指纹识别通过每个人的指纹区分用户，声纹识别也可以通过用户发音特征的不同，实现对用户的区分，让语音助手只对机主的声音作出反馈，并忽略掉其他人的语音指令。

在开启 Siri 的时候，需要说五段话，就是在完成声纹识别注册这一步。

此外，对开发者而言，去掉“Hey”，还要死掉不少脑细胞。比如有的用户在闲暇时会说“Good morning Siri”，或是在使用完语音助手之后说“Goodbye Siri”；有时用户唤醒语音助手好几次没成功时，还会说“Come on Siri”，这种时候要不要唤醒？

从产品经理的角度考虑，最优方案当然是听懂用户的所有意图，比如“Goodbye Siri”意味着不需要唤醒，而“Good morning Siri”意味着用户想要沟通。

但由于语音唤醒模型比较简单，功能没那么强，一直运行也比较耗电，所以大部分产品会选择一刀切

——要么都唤醒，要么都不唤醒，但这又破坏了用户体验。

根据目前放出的 iOS17 开发者版本来看，苹果暂时不支持“Good morning Siri”“Come on Siri”等情况下的唤醒。

ChatGPT会取代语音助手么？

微软 CEO 萨蒂亚·纳德拉曾直言不讳语音助手的“愚蠢”：“无论是 Cortana、Alexa、Google Assistant 还是 Siri，这些语音助手笨得像块石头。”

与最新最热的生成式聊天 AI 相比，语音助手似乎是上个时代的产物，

它们只能回答简单直接的指令，从数据库选一些已有的东西来语音播报，

还常常出错；而 GPT 们可以生成小说，讲一个世界上曾经没有的笑话，应付人类各种的语焉不详，跟你谈笑风生。

甚至成为你的朋友｜《M3GAN》（2022）

实际上，语音助手使用的也是深度学习模型，只是数据量和计算需求没有 ChatGPT 这类大语言模型大。

短期来看，大语音模型可以替代语音助手工作模块中语义理解的功能。对语义理解模块之前的语音唤醒和语音识别影响有限。但是更好的语义理解，也能在一定程度上修复前面两个模块带来的错误。

目前亚马逊已表示要用大语言模型给旗下语音助手 Alexa 做升级，阿里也宣布未来所有产品都将接入“通义千问”大模型，其中也包括天猫精灵。

可能在一段时间之后，

手机中的语音助手还可以借助 ChatGPT 综合分析用户的历史信息，并结合用户所处的场景，更准确地了解用户的意图，

那样就可以做到无需唤醒词的人机自然对话了

上一篇：华人汇款回国钱没了，追也追不回来，就因为….

下一篇：东北味儿最淡的城市，大连太彪了

随便看看

图讯排行

图讯推荐

图讯更新

Top