第383集:《AI翻译的伦理中立性准则》(1 / 2)

代码里的中立刻度

林野的手指悬在回车键上,屏幕里的“自由阵线”四个字像颗定时炸弹,让他后背渗出一层薄汗。

这是2038年的深秋,星译科技的算法测试室里永远飘着速溶咖啡的苦味,三十块显示屏昼夜不休地滚动着中英双语对照文本。作为首席测试工程师,林野今天要过的是最新版“星译V9”的政治文本翻译校验——一份关于中东局势的联合国决议草案,光是“武装组织”“人道主义干预”这类词汇,就够算法在中立性的钢丝上走三回。

“第17段,‘the group has carried out activities’,算法译成‘该组织实施了恐怖活动’。”林野把鼠标重重砸在桌面上,咖啡杯震出一圈涟漪,“原始文本没定性,它凭什么加‘恐怖’俩字?”

身后传来脚步声,项目总监陈砚的白衬衫袖口总是熨得笔挺,他凑过来看了眼屏幕,眉头皱成川字:“调取训练数据日志,看看触发词是什么。”

日志拉到最底,一行红色代码跳出来——“关联地域:中东;关联事件:2037年爆炸案;情感倾向:负面”。林野冷笑一声:“就因为这个地区发生过爆炸,所有‘组织’都成恐怖分子了?那要是把地域换成北欧,它是不是得译成‘该团体开展了相关活动’?”

陈砚没接话,点开后台的用户反馈系统。最近三个月,类似投诉堆了三百多条:某外媒报道里的“政府改革”,在东南亚用户端被译成“政府激进调整”,在北美用户端却成了“政府优化举措”;有佛教用户反映,“宗教活动场所”被译成“寺庙”,而伊斯兰教用户看到的却是“清真寺”;更严重的是上周,一份联合国人权报告里的“争议性政策”,给中东用户的版本自动加上了“违反人道主义”的后缀。

“再这么下去,欧盟那边的伦理审查我们别想过了。”陈砚把反馈表打印出来,纸页边缘被他捏得发皱,“董事会昨天发了最后通牒,两周内必须拿出解决方案,不然星译V9就别想上线。”

林野盯着屏幕里闪烁的光标,突然想起三年前刚进公司时的场景。那时陈砚还不是总监,两人挤在同一个工位,通宵改算法漏洞时,陈砚总说:“翻译是桥,不是墙。咱们做AI的,得让桥两边的人看见同一片河,不是你这边见着浪,他那边见着沙。”

可现在,这桥明显歪了。

第二天一上班,林野就把测试组的五个人叫到会议室。刚毕业的实习生苏晓抱着笔记本电脑,小声说:“林哥,我查了算法的地域适配模块,它会根据用户Ip自动调取当地主流媒体的用词习惯。比如北美用户看‘难民’,算法会优先用‘dispced persons’,因为当地媒体更常用这个中性词,但到了中东,就会自动换成‘refugees’,甚至有时会加‘victis’。”

“这不是适配,是偏见。”数据分析师老周推了推眼镜,调出一份热力图,红色区域集中在中东、东欧和非洲,“你看,这些地区的用户收到的负面修饰词,是北美用户的3.7倍。算法学的是过去十年的媒体数据,而那些数据本身就带着报道方的立场,它相当于把别人的偏见嚼碎了,再喂给用户。”

林野把白板擦得干干净净,写下“语义中立”四个大字:“我们得做一套准则,让算法不管面对什么内容、什么用户,都能守住底线。”

第一个难题就是争议性词汇。苏晓试着把“surgent”(叛乱分子)输入测试版,算法给出三个选项:“叛乱分子”“反抗组织”“武装团体”,但后面跟着的概率值天差地别——“叛乱分子”的匹配度高达89%,“武装团体”只有12%。

“不行,概率值不能这么悬殊。”林野把概率值改成均等的33%,“用户得自己选,而不是算法替他们选。就像你去超市买水,不能因为老板喜欢矿泉水,就把可乐藏在最后一排。”