Google的声音搜索它于2008年在手机上推出,并于6月被添加到桌面上,这似乎是一个简单的主张。您将查询说在手机(或计算机)中,以及,ta-da,系统弹出一个答案。
但是,教Google的语音机器人了解用户说的话一点都不简单。而且,如果您想让它讲世界上所有语言,那么它就更加复杂了。
输入Google的语音猎人Linne HA(右图,右图)。她的正式头衔是“国际计划经理,Google语音搜索”,但Ha花了她的日子纵横交错,收集了训练语音机器人所需的语音样品,就像鳞翅目可能会寻找稀有蝴蝶的方式。
通常,公司将通过从专门汇编语音数据库的公司的样本许可来解决此问题。但这对Google不起作用。
许多标准词典根本不包括人们在搜索查询中使用的单词。(有趣的是,人们发现,人们在语音搜索中使用的单词与他们在书面书中使用的单词几乎相同。)
另外,Google需要它们的机器人来了解在某人可能使用语音搜索的所有设置中使用的查询(或语音输入和语音动作,另外两个使用样品创建的声学模型的Android功能)。传统公司没有为处理这些情况而设立。
因此,哈必须变得杂乱。她的解决方案:点击世界各地的当地Google用户,并将其递给装有专门设计的语音收集应用程序的Android智能手机。然后将它们送入他们的社区以记录他们的家人和朋友。
“当地专家是将使用我们的产品的人,” HA告诉德赢提款。“我们想确保我们要使用的任何东西都是他们想要使用的。”
该计划被称为“口口相传”,始于去年,当时在Google Maps和Google Earth上工作的HA开发了该项目。从墨西哥城到河内,阿姆斯特丹和雅加达的地方,她到处都是,每年将她留在路上230天以上。
到目前为止,“口口相传”收集了“数百万”样本,Ha说 - Google不会获得更具体的特定内容 - 包括每种语言或方言的25万个话语。
为了确保Google的科学家获得所需的样本范围,HA的本地团队对他们的录音在哪里具有创造力。在香港,他们跳上手推车和地铁,因为在上下班时那里有很多人使用手机。在巴西,他们去了购物中心,在新加坡参加足球比赛,并在荷兰前往海滩。
尽管HA不得不纠缠从停电到台风,但她说,寻找当地人参加该计划并不是一个问题。在印度尼西亚,他们呼吁志愿者出现在大学,并有900多人。
“人们真的为他们的语言感到自豪,”哈说。“他们想确保[语音搜索]正常工作,并且可以用母语使用它。”
到目前为止,语音搜索可与27种语言和方言一起使用,这意味着只有273个语言可以支持世界上拥有超过一百万扬声器的300种语言。以目前的速度,可能需要再花十年的时间来收集所有必要的样品。因此,相反,她希望通过与大学(例如大学)与地面上的组织合作来缩放该计划,以代表Google进行一些语音狩猎。
同时,HA正在为她的下次旅行做准备,这将首次将该计划带到非洲。但是在此之前,HA计划了一些假期。她的目的地?她待在家里。
[顶部图片:Flickr用户Jaredp奥林这是给出的
[附加图像:冰岛的HA(顶部),雅加达(Middle)和布宜诺斯艾利斯(Buenos Aires)的语音收藏(底部),由Google提供这是给出的