广告
广告

为什么亚马逊的“死奶奶” Alexa只是语音克隆的开始

文本向语音技术的演变使我们更加接近令人信服的人类声音。

为什么亚马逊的“死奶奶” Alexa只是语音克隆的开始
[照片:马修·鲍尔(Matthew Ball)/Unsplash;Seamartini/Getty图像]

今年夏天早些时候,在RE:MARS会议上 - 一项亚马逊举办的活动,重点是机器学习,自动化,机器人技术和空间 - Rohit Prasad,Alexa AI的主管兼高级副总裁Rohit Prasad旨在用超自然的Parlor吸引观众技巧:与死者说话。他说:“虽然AI无法消除损失的痛苦,但它肯定可以使他们的记忆持续下去。”问亚历克斯,“奶奶可以阅读我绿野仙踪?”

广告
广告

女人的声音读了这本书的几句话,听起来祖母够了。但是在不认识祖母的情况下,不可能评估相似之处。而且,整个观察者都震惊了许多令人毛骨悚然的东西 - ARS技术称为演示“病态”。但是,普拉萨德(Prasad)对“技巧”如何执行的启示确实值得喘息:亚马逊科学家能够基于一分钟的音频样本来召唤奶奶的声音。而且,他们几乎可以通过几乎所有声音,您可能会发现令人兴奋,恐怖或两者组合的前景来轻松地做同样的事情。

对能够欺骗人类或语音识别技术的“深击”声音的恐惧并非没有根据。在2020年的一个案件中,盗贼使用人工产生的声音与香港银行经理交谈,在发现诡计之前释放了40万美元的资金。同时,随着语音与技术的互动变得越来越普遍,品牌渴望以独特的声音代表。消费者似乎想要听起来更人性化的技术(尽管Google语音助手模仿“ UMS”,“ MM-HMM”和其他人类言论的其他抽动被批评实际的)。

这一直在推动AI驱动文本到语音(TTS)技术的创新和投资浪潮。在Google Scholar上进行的搜索显示了自2021年以来发表的有关文本到语音综合的20,000多种研究文章。在全球范围内,文本到语音市场预计在2028年将达到70亿美元,高于2020年的23亿美元。紧急研究。

广告
广告

如今,最广泛的TT使用是在数字助理和聊天机器人中。但是,在游戏,媒体和个人交流中的新兴语音身份应用程序很容易想象:虚拟角色的自定义声音,在您的声音中读取的短信,不在或已故)演员。元视频也正在改变我们与技术互动的方式。

“这些虚拟化的体验将会有很多,互动越来越少,键盘越来越少,而更多地谈论了演讲,”西雅图以AI为中心的风险投资基金Flying Fish的创始合伙人弗兰克·张(Frank Chang)说。“每个人都认为语音识别是热门的事情,但是最终,如果您与某事交谈,您不希望它只是与您交谈吗?在某种程度上,可以个性化的声音或您想听到的人的声音或声音越好。”为有视力挑战,运动功能有限和其他认知问题的人提供可访问性是推动语音技术发展的另一个因素,尤其是用于电子学习。

无论您是否喜欢“ Alexa奶奶”的想法,演示强调了AI对文本到语音的影响的速度,并暗示令人信服的人类虚假声音可能比我们想象的要近得多。

广告

原始的Alexa于2014年11月发行了Echo设备,据信是基于妮娜·罗尔(Nina Rolle)的声音, a voiceover artist based in Boulder (something neither Amazon nor Rolle ever confirmed), and relied on technology developed by Polish text-to-speech company Ivona, acquired by Amazon in 2013. But the early Alexa’s conversational style left a lot to be desired. In 2017,VentureBeat写道:“ Alexa非常聪明,但是无论AI驱动的助手谈论什么,都没有围绕其相对平坦和单调的声音。”

Alexa的早期版本使用了“串联”文本到语音的版本,该版本是通过编译单个扬声器记录的大型语音片段来起作用的,可以重新组合以产生完整的单词和声音。想象一下赎金的笔记,将字母切成薄片并粘贴在一起以形成新句子。这种方法通过带有真实听起来的音色生成可理解的音频,但是它需要许多小时的录制语音数据和许多微调的音频 - 及其对录制的声音库的依赖,因此很难修改声音。另一种称为参数tts的技术不使用记录的语音,而是从单个语音的统计模型开始,这些模型可以将其组装成一系列单词和句子,并通过称为Vocoder的语音合成器处理。(Google的“标准”文本到语音的声音使用了该技术的变体。)它提供了对语音输出的更多控制,但具有缓慢的机器人声音。您不希望它阅读您的睡前故事。

为了创造新的,更具表现力和自然声音的声音,亚马逊,Google,Microsoft,Baidu和其他文本到语音中的其他主要参与者近年来都采用了某种形式的“神经TT”。NTTS系统使用经过人类语音训练的深度学习神经网络,从头开始对音频波形进行建模,并将任何文本输入转换为发声的语音。神经系统不仅能够学习发音,还可以学习语言学家所说的“韵律”的节奏,压力和语调的模式。他们可以相对轻松地选择新的口语风格,或者切换扬声器“身份”。

广告

Google Cloud的文本到语音API目前为开发人员提供100多种语言的神经声音,范围从阿拉伯语到越南语(加上区域方言)以及使用旧参数TTS的“标准声音”(在这里听)。Microsoft的Azure为开发人员提供了110多种语言和方言的330多个神经声音,并具有一系列的讲话风格 - 包括新闻广播,客户服务,喊叫,喊叫,窃窃私语,愤怒,兴奋,兴奋,开朗,悲伤和恐惧(试试看!)。ATS,Duolingo和Progressive在内的公司也采用了Azure神经声音。(In March, Microsoft completed its acquisition of Nuance, a leader in conversational AI and a partner in building Apple’s Siri, whose vocalizer service offers 120-plus neural chatbot voices in over 50 languages.) Amazon’s Polly text-to-speech API supports roughly three dozen neural voices in 20 languages and dialects, in conversational and “newscaster” speaking styles (listen to早期的演示这里)。

奶奶语音演示为基础的技术是由亚马逊位于波兰格丹斯克的文本对语实验室的科学家开发的。在一篇研究文章中,开发人员描述了他们的新方法,从一个非常有限的样本中克服新的声音 - 在机器学习的说法中,“几乎没有”的问题。本质上,他们将任务分为两个部分。首先,该系统将文本转换为“通用”语音,该模型已在另一位演讲者的10个小时的语音上进行了培训。然后,一个“语音过滤器”(在目标扬声器的声音的一分钟样本中进行训练),将新的扬声器身份置于听起来像目标扬声器。建立新声音的培训样本很少。

这种模块化方法不必为每个新声音构建新的文本到语音模型,而是将创建新的扬声器身份的过程转变为将一个语音更改为另一个语音的计算更容易的任务。在客观和主观的措施上,以这种方式产生的合成语音的质量可与经过30倍更多数据训练的模型的语音相媲美。也就是说,它不能完全模仿特定人的口语风格。在电子邮件中德赢提款,Alexa研究人员解释说,语音过滤器仅改变说话声音的音色,即基本的共鸣。声音的韵律(即节奏和语调)来自通用语音模型。因此,这听起来像是奶奶的声音阅读,但是没有独特的方式,她会伸出某些单词或在别人之间停顿很长时间。

广告

亚马逊不会说开发人员和公众将何时可以使用新的语音传播功能。在一封电子邮件中,发言人写道:“个性化Alexa的声音是我们的客户非常期望的功能,他们可以使用这项技术来创造许多令人愉快的体验。我们正在努力改善我们在RE:MARS上展示的基本科学,并正在探索将使客户满意的用例,并使用必要的护栏来避免任何潜在的滥用。

可以想象,它具有自定义诸如阅读Sidekick之类的东西的能力 - 这是Alexa功能,可以让孩子们与Alexa一起阅读 - 并以亲人的声音进行阅读。而且很容易看出“奶奶的声音”演示可能会为虚拟助手提供更多适应性的名人声音。Alexa目前的名人声音 - Shaquille O’Neal,Melissa McCarthy和Samuel L. Jackson,都需要制作大约60个小时的工作室录音,并且在某种程度上有限制自己的工作;回答有关天气,讲笑话和故事以及回答某些问题的问题,但默认是在系统舒适区之外的标准Alexa声音。

John Legend和Issa Rae的Google助理“名人声音客串”(在2018年和2019年都引入但不支持),类似地结合了预先记录的音频,并与Wavenet Technology合成了一些即兴响应。能够开发更强大的名人声音的能力,可以在简短的录制会议之后读取任何文本输入,这可能会改变游戏规则,甚至可能有助于提高智能扬声器的销售。(根据研究公司OMDIA的说法,相对于2020年,美国智能扬声器的运输量下降了近30%,其中包括亚马逊Alexa智能扬声器货物的近51%。

广告

随着大型科技公司继续投资于文本到语音,可以肯定的是:越来越难以判断您听到的声音是由人类还是由人为的算法发出的。

广告
广告