苹果公司的跨平台 Siri 虚拟世界助手在全球具有多达 5 亿用户,似乎,语音辨识是苹果感兴趣的最重要领域之一。上周,苹果公司公开发表了一系列实印本研究论文,就如何改良语音启动时检测和说出人检验,以及多说出人的语言识别技术展开了研究。【 图片来源:Patently Apple 所有者:Patently Apple 】扬声器检验和语音启动时检测在第一篇论文中,一组苹果研究人员明确提出了一个训练过的人工智能模型,这个模型既能继续执行自动语音辨识任务,也能继续执行说出人辨识任务。
正如他们在概要中所说明的,语音助手辨识的命令一般来说以启动时短语(例如,“嘿,Siri”)为后缀,检测这个启动时短语牵涉到两个步骤。首先,人工智能必需辨别输出音频中的语音内容否与启动时短语的语音内容相匹配(语音启动时检测);其次,人工智能必需辨别说出者的语音否与登记用户或用户的语音相匹配(语音检验)。一般来说情况下,这两项任务都是被独立国家考虑到的。
但有年出版者假设,对语音发起者的理解有可能有助推断出声音信号中的语音内容,反之亦然,这将有助对这两种属性展开评估。回应,研究人员设计了三套需要自学语音和说出人信息的模型,并对一组数据展开训练,这些数据包括多达 16000 小时的带上注解的样本,其中 5000 小时的音频有语音标签(其余的为说出人标签)。不仅如此,还有多达 100 名受试者用于智能扬声器设备在一系列声学设置中为语料库作出贡献,还包括安静的房间、来自房间内电视或厨房设备的外部噪音,以及录音机以大音量播出音乐。
值得一提的是,来自电视、广播和播客的 2000 小时不包括启动时短语的倒数音频记录也被加到进去,以此来测量“误报”亲率。这些模型表明出有了自学语音和说出人信息的能力,同时在完全相同数量的参数下(按,掌控训练过程某些属性的变量),每个任务的准确性最少与基线模型完全相同。
事实上,在明确提出的三种模型中,有一种在“多重”设置下的展现出高于说出者检验基线,在文本牵涉到的任务中相对于基线提升了 7.6%。研究人员指出,这样的实验结果是十分有意思的,因为这些模型是用于不相关的数据集训练的,也就是说,每个音频样本要么有语音标签,要么有说出人标签,根本没两者都有。
通过对结果的仔细观察,研究人员明确提出了一种灵活性的设计,通过相连有所不同的任务的训练数据,而不是为每个训练示例提供多个标签,从而在多个涉及任务上训练模型。从简单的角度来看,这样需要在两个任务之间分享计算出来可以节省设备内存、计算出来时间或延后,以及消耗的电量/电池。
【 图片来源:venturebeat 所有者:venturebeat 】错误启动时减轻在研究中,有一项补足研究增加了错误启动时的再次发生,也就是说,语音助手无意地忽视了像 Siri 这样的语音助手的语音。研究人员回应,他们用于了图形神经网络(GNN),这是一种操作者在图形结构上的人工智能模型,其中每个节点都与一个标签相关联,目标是在没基础事实的情况下预测节点的标签。在论文中,研究人员写到:语音启动时的智能助手一般来说在开始监听用户催促之前就不会检测到一个启动时短语……错误的启动时一般来说来自于背景噪音或听得一起类似于启动时短语的语音。因此,增加误将启动时是建构以隐私为中心的非侵入性智能助手的一个最重要方面。
在未来的工作中,该团队计划将基于GNN 的处置扩展到其他任务,例如用户意图分类。多语种说出人辨识在另一篇论文中,苹果研究人员探寻了一种针对多语言使用者量身自定义的说出人语言识别系统。
他们回应,语音识别系统对大多数语言都有很高的准确性。但是,当有多重语言经常出现时,这个语言识别系统的展现出就不尽如人意了。因此,基于这样的实行情况,研究人员要求积极开展说出人语言识别系统的工作。值得注意的是,《华盛顿邮报》近期委托展开的一项研究表明,谷歌和亚马逊生产的热门的智能音箱听不懂本土用户的语音比听不懂非美式口音的概率高达了 30%。
同时,像 Switchboard 这样的语料库也早已被证明对来自国内特定地区的使用者不存在可测量的弯曲,这个语料库还是被 IBM 和微软公司等公司用来取决于语音模型错误率的数据集。针对这种情况,年出版者将有关用于模式的科学知识统合到一个问答系统中,该系统需要为来自 60 多个地区的演讲者作出决策。其中,声学子模型将根据语音信号所传送的证据展开预测,而上下文感官预测组件则考虑到了各种交互上下文信号,通过这两方面的预测,来自由选择拟合的单语自动语音识别系统。
据理解,上下文信号包括了有关收到问答催促的条件的信息,还包括有关已加装的问答区域、当前自由选择的问答区域以及用户在发出请求之前否转换了问答区域的信息。最重要的是,它们有助在语音信号太短的情况下,依赖声学模型产生一个可信的预测。比如说,如果用户同时加装了英语和德语,像“naIn”这样的较短而模糊不清的语句,在德语中有可能是驳斥的“nein”,在英语中则是数字“nine”。
另外,为了评估该系统,研究人员还研发了一种自定义指标,称作“平均值用户准确度”((公众号:)按,AUA,Average User Accuracy),他们指出这种指标能更佳地体现模型中的“人口水平”用于模式。通过对多语言使用者的 128,000 个具备适当交互上下文信息的问答话语的内部语料库展开严格训练,它在所有语言人组中构建了平均值 87% 的准确性,同时将最好情况下的准确性相对于基线提升了 60% 以上。此外,在团队调整参数以均衡准确性和延后与在设备上运营模型的计算出来阻抗之后,平均值延后从 2 秒增加到 1.2 秒,而对 AUA 的影响不多达 0.05%。
录:本文编译器自venturebeat版权文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:IM电竞官网-www.regencytheatre2016.com