互联网繁荣发展已为全球超过20亿的人带来了随时共享全世界集体知识的机会。只需一个简短的查询,您就可以访问一个远在他国、千里之外的服务器上的网页,或者阅读一个来自世界某个地方他人发来的信件。但是,如果它用的是印地语、南非语或冰岛语,而你只会说英语,反之亦然,会怎样呢? 


2001年,Google开始提供八种语言与英语之间的互译服务。当时使用的是最先进的商业机器翻译(MT),但是翻译质量不是很好,最初的几年也没有多少改善。2003年,几名Google工程师决定提高翻译质量,并增加更多语言。我就是那时加入这个工作的。当时,作为一名DARPA工程研究员,我试图寻求一种新的机器翻译方式——从数据入手研究,希望带来更好的翻译质量。我接到Google工作人员打来的电话,他说服我说(我之前很怀疑!)数据驱动方法可能在Google上起作用。


我之后便加入了Google,和同事一起开始重新设计翻译系统,参加了 NIST机器翻译系统评估比赛,这是一场研究机构和公司之间的分词竞赛(bake-off),旨在构建更好的机器翻译系统。Google雄厚的计算基础设施和处理海量网络数据的能力为了我们带来了强劲的表现。这是一个重大的转折点:它强调了数据驱动方式将会多么有效。 


但是,那时我们的系统速度太慢,无法运用到实际操作中——翻译1000个句子需要花费40个小时,使用1000部机器。因此我们专攻速度,一年以后我们的系统能够在一秒内翻译出一个句子,并且质量更高。在2006年初,我们推出了首批语言服务:汉语和阿拉伯语。


2006年4月28日,我们宣布推出统计机器翻译方法。在那之后的六年里我们主要的关注核心在于翻译质量和语言覆盖面。如今,我们可以在64种不同语言之间自由翻译,包括网站上极罕见的语言,如孟加拉语、巴斯克语、斯瓦西里语、意第绪语,甚至世界语。 


如今,Google翻译每月拥有超过两亿的活跃用户(如果算上其他可以使用翻译的地方,如Chrome、移动应用等,这个数字会更大)。而在旅途中人们随时随地使用Google翻译的心情更为迫切(在旅行中,语言障碍比任何时候都要凸显)——我们看到,移动流量以每年超四倍的幅度在增长。而Google翻译的用户是真正的遍布全球:目前有超过92%的流量来自美国以外的地区。