很多人无偿给百度提供语音数据，因为他们对自己的方言感到自豪

书摘 • 2016-12-13

科技公司开始收集自己的语音数据，其中一些来自志愿者朗读的各种内容。现在，随着语音控制软件逐步受到人们欢迎，他们也通过自己的产品和服务收集了很多数据。

当你让自己的手机搜索信息、播放歌曲或导航路径时，这些内容很可能会被某家公司录制下来。当你向Alexa询问天气和最近的橄榄球赛比分时，她便会利用这些内容改进其自然语言理解能力（尽管在你叫她的名字之前，Alexa不会倾听你的对话。）

“根据产品设计，你使用得越多，Alexa就越聪明。”Alexa资深首席科学家尼克·斯特罗姆（Nikko Strom）说。

其中的关键挑战是让这项技术熟悉不同的语言、口音和方言。这一点在中国体现得尤为明显。

为了收集中国各地的方言数据，百度在今年春节期间启动的一项营销计划，推出了方言对话项目。该公司向用户承诺，如果他们为该项目作出贡献，今后便可使用自己的方言与百度展开互动。

短短两周内，该公司就录制了超过1000小时的方言数据。很多人完全免费提供这些数据，因为他们都对自己的方言感到自豪。一位四川的高中教师对该项目十分热衷，他甚至让全班同学用四川话录制了1000多首古诗。

另外一大挑战是让语音识别技术在嘈杂的环境中识别语音指令——包括酒吧和体育场等人声鼎沸的环境。

微软也在Xbox上部署了一款名为Voice Studio的应用，专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容，该公司为参与其中的用户提供了各种各样的奖励，包括点卡和游戏道具。

该项目在巴西展开了大力推广，当地团队还在Xbox主页上着重推广这款应用。他们随后利用这些数据开发了巴西葡萄牙语版的Cortana语音助理，并于今年早些时候发布。

Bloomberg 新浪科技编译

欢迎随手转发到朋友圈。寻求转载授权，请关注微信公众号航通社 (ID:lifeissohappy) ，并在后台留言输入关键字转载。转载时请保留版权信息。