跳转到内容

很多人无偿给百度提供语音数据,因为他们对自己的方言感到自豪

科技公司开始收集自己的语音数据,其中一些来自志愿者朗读的各种内容。现在,随着语音控制软件逐步受到人们欢迎,他们也通过自己的产品和服务收集了很多数据。

当你让自己的手机搜索信息、播放歌曲或导航路径时,这些内容很可能会被某家公司录制下来。当你向Alexa询问天气和最近的橄榄球赛比分时,她便会利用这些内容改进其自然语言理解能力(尽管在你叫她的名字之前,Alexa不会倾听你的对话。)

“根据产品设计,你使用得越多,Alexa就越聪明。”Alexa资深首席科学家尼克·斯特罗姆(Nikko Strom)说。

其中的关键挑战是让这项技术熟悉不同的语言、口音和方言。这一点在中国体现得尤为明显。

为了收集中国各地的方言数据,百度在今年春节期间启动的一项营销计划,推出了方言对话项目。该公司向用户承诺,如果他们为该项目作出贡献,今后便可使用自己的方言与百度展开互动。

短短两周内,该公司就录制了超过1000小时的方言数据。很多人完全免费提供这些数据,因为他们都对自己的方言感到自豪。一位四川的高中教师对该项目十分热衷,他甚至让全班同学用四川话录制了1000多首古诗。

另外一大挑战是让语音识别技术在嘈杂的环境中识别语音指令——包括酒吧和体育场等人声鼎沸的环境。

微软也在Xbox上部署了一款名为Voice Studio的应用,专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。

该项目在巴西展开了大力推广,当地团队还在Xbox主页上着重推广这款应用。他们随后利用这些数据开发了巴西葡萄牙语版的Cortana语音助理,并于今年早些时候发布。


科技巨头们为什么如此渴求语音数据?

Bloomberg 新浪科技编译

欢迎随手转发到朋友圈。寻求转载授权,请关注微信公众号航通社 (ID:lifeissohappy) ,并在后台留言输入关键字转载。转载时请保留版权信息。