译文准确率超九成
美国国防部高级研究计划局(DARPA)从2005年起实施一项方案,目的是开发一种称作“全球自动语言开发”(GALE)的实时翻译软件。按照方案,2010年之前,软件即时翻译准确率将达到90%到95%。
一些语言专家认为这不太可能完成,因为人类翻译准确率尚不可能达到那种程度。人们平常互相听错话,或者不理解一些方言习语,或者主观地把原意译为另一种意思。
目前有3家美国企业加入GALE软件开发竞争行列,它们是国际商用机器公司(IBM),年度研究预算60亿美元;非盈利研究机构“斯坦福研究院”(SRI),年度研究预算3亿美元;承包商“BBN科技公司”,年度研究预算2亿美元。
方案实施后,DARPA每年将评估3家企业的研究进展,其中表现最差的企业将遭到淘汰。对3家企业的开发小组来说,翻译准确率不必立即达到95%。预计方案实施第一年,翻译演讲准确率约为65%,翻译文本准确率约为75%。
软件开发利润巨大
开展GALE软件开发第一年,BBN科技公司就获得1600万美元收入。巨大的商业利润促使3家企业加大投入。
接到通知后,IBM、SRI和BBN迅速行动,在世界范围顶级大学实验室寻找分包商。计算机科学家隆源说:“(即使)你凌晨3时发送电子邮件,也立即有许多人回复。”
为引进人才,IBM和SRI两家企业从语音识别和翻译技术人才集中的BBN科技公司挖走一批研究人员。两家企业的GALE软件开发小组负责人都是BBN科技公司原雇员、BBN公司软件开发小组负责人约翰·马克胡尔的同事。
BBN科技公司2004年由主管和投资人从美国韦里孙通信公司旗下收购,80%的收入来自军方。接受国防部评估前数月,马克胡尔说,如果遭到淘汰,他领导的约400名研究人员将面临失业。
电脑回答外语问题
接受GALE软件开发任务前,BBN科技公司声称,该企业开发的软件,翻译国外新闻广播准确率超过80%。但国防部高级研究计划局希望,翻译内容不仅局限于发音清楚的外语广播,而且还要有街头采访,以及互联网上沙哑的口头交谈。安装GALE软件的电脑可以回答外语问题。
这对开发小组提出了更高要求。背景噪音、方言、口音、俚语、“在……上”和“……的”等多数说话者吐字不清的短语也在软件翻译内容之列。
此外,DARPA根据6万份阿拉伯文和英文资料整理出多道问题,例如“以色列如何对哈马斯的选举胜利作出反应?”、“描述一下科威特发生的袭击”等,检验安装GALE软件的电脑如何回答这类问题。
对于前一个问题,BBN开发小组的一台电脑这样回答:“2005年1月10日以来,警方与极端主义者发生冲突,在全国范围搜捕他们,打死8名武装人员,逮捕其他数十人。”