雷克萨斯ls,“你打篮球像蔡徐坤”:微信翻译这个bug是怎么回事?,丧尸电影

今日头条 · 2019-03-29

本文转载自微信公号“硅星人”(ID:guixingren123),文光谱。

关于神经机器翻译,来一次科普教育。

为了微信的一个bug,蔡徐坤的粉丝们差点跟腾讯势不两立。

上周末,一组微信“神翻译”的截图,在微博、知乎、豆瓣和虎扑等交际网络上传开。有人输入比如 "you play basketball like caixukun" 等语句, 用微信自带的翻译功用,得到的却是意义彻底差错的译文:

雷克萨斯ls,“你打篮球像蔡徐坤”:微信翻译这个bug是怎样回事?,丧尸电影

其他遭殃被一同拿来调戏微信翻译的男星,还有吴亦凡、谢广坤等。

孟繁茁
千蕊人生 雷克萨斯ls,“你打篮球像蔡徐坤”:微信翻译这个bug是怎样回事?,丧尸电影

蔡徐坤是现在我国娱乐界流量榜首的明星,其粉丝必定欠好惹。

微信团队现在现已部分下线了翻译功用。依据硅星人实测,相似"you are so" 的句式,以及触及"caixukun"等词的语句,现在现已无法翻译到中文了。

与此一起,官方账号@腾讯微信团队也在微博上宣告,翻译功用现在正在紧急修雷克萨斯ls,“你打篮球像蔡徐坤”:微信翻译这个bug是怎样回事?,丧尸电影复中。到发稿,相关语句依然无法被微信正常翻译。

留意,微信官方供给了一小段解说:

翻译引擎在翻译一些没有进行过练习非正式英文词汇时呈现误翻,导致部分语句翻译呈现问题。

在"caixukun"后,又有网友发现了更多会触发bug的词。比如,微信翻译好像在

大学英文简称上体现比较差劲。输入"your school is WHU",翻不出武汉大学,却给出了“你的校园很烂”的成果。

没过多久,校园的句式也翻不出来了。

硅星人以为,微信应该进一步、愈加详细地奉告咱们:这个bug为什么会呈现,由哪些因素所导致。

一方面,微信翻译背面的技能的确比较复杂。解说它,有助于用户去了解它的作业原理,了解这个翻译成果的背面,或许有着十分复杂的技能原因。

另一方面,你关掉了"you are so"句式,还会呈现校园简称;关了校园简称,还会有更多会触发bug的词被发现。发现一次关一次?这样损伤的是正常运用翻译功用用户的体会,久而久之总不是方法。

惋惜的是,微信方面表明,以上面微博为准,不再更多置评(或许是由于不想持续惹恼蔡徐坤的粉丝吧。)一起,中文互联网上彻底找不到针对此事靠谱的技能答复,即便在知乎上,相关主题下面也都是用户在共享自己发现的bug截图,没有人解说原因。

已然这样,无妨让硅星人来试试?

咱们采访了多位机器学习专家,并在接下来的篇幅里 1)解说微信翻译用的究竟是什么技能;2)再测验答复"you play basketba华球网直播ll like caixukun" 这句话,为什么在微信翻译里被翻错了。

微信翻译用的是什么技能?

硅星人经过多方面了解,坚信微信英汉互译体系选用的是现在机器学习范畴比较火的 “神经机器翻译”(Neural Machine Translation, 简称NMT) 技能,由微信AI团队自研。

从外行人的视点来看,NMT在翻译一句话时,做了这些作业:

Step 王奎新1: 在必定程度上仿照人脑的思想方法,NMT依据一个单词在整个语句(可所以长句)傍边的语境,为这个单词树立一个神经网络的模型,张郦谋构成一个语义表明。

比如单词是英语的 dog,能够了解为NMT在它的“大脑”里构成了一条狗的形象。

Step 2: 依照在语句乃至阶段中的语境,将模型从头转化成另一种言语。

比如 dog 翻译成法语便是 “le chien”;但假如语境是“一条狗生下了小狗”,那么 dog 就会被翻译成阴性的"la chienne"。

(NMT不是真的在大脑中构成狗的视觉形象,事实上菲妞整个进程跟图画彻底没有任何联系。这个所谓的“形象”,经过一连串向量 (vector) 表明。狗的比如来自于 Microsoft Translator [1])

NMT的首要优势是对长语句(乃至阶段)有着不俗的翻译才干,阅览起来上下文连接程度接近人翻。面世之后,NMT 也逐步被微软、Google、百度、腾讯等大公司的翻译产品所选用。

“机翻技能一直在不断迭代更新,曾经根据规矩,曩昔十年首要根据计算,现在咱们开端用神经网络。神经机器翻译是现在机器翻译上比较火的一项技能。咱们绝大多数的大语种翻译现已根据这个技能了,“在美国一家尖端科技罗明榜公司的研讨分支担任资深研讨员的王夏*通知硅星人。

”在机翻技能发展的每个阶段,科研人员都会遇到一些问题。NMT也存在一些问题, 比如整个进程的可解说性苏意严尊是十分低的,”他说。

硅星人翻译一下这句话的意思:

在详细事例的层面上,一个NMT的体系为什么会把一句话 ABCDE 翻译成张嘉译前妻杜珺相片 abcde,研讨者现在是很难将翻译进程解说清楚的。

这句话为什么被翻错了?

当NMT翻错了的时分,或许发生了哪些状况?篮导航

其实错没错、差错严峻不严峻,都是人来决议的。在机器眼里没有对错,选定的答案便是机器以为概率最高或最有或许的那个答案,由于一切都依照模型、算法运转着。

承受这一点,你才干了解这句话为什么翻错。

接下来进入正题

或许原因 1:练习集噪音

在承受硅星人采访的多位机器学习专家傍边,大部分人都给这条原因投了票。

形象一点比如,噪音 (noise) 便是练习翻译体系的数据集里呈现的”不正确“的,“脏”的数据。

练习一个优异的NMT体系,需求很多 高质量的平行语料数据——”高质量“指的是精确的翻译,”平行语料“指的是一句英文一句中文的,”I love you = 我喜欢你“,等等。

这些数据要去哪里找?英汉辞典是一个来历。除此之外,最盛行的做法是去互联网上抓取,从全网很多的数据里,抓取雷克萨斯ls,“你打篮球像蔡徐坤”:微信翻译这个bug是怎样回事?,丧尸电影到所需求的高质量平行语料。

"you黑奶头 play basketball like caixukun" 被翻译成了”你的篮球打得真好“,噪音是哪来的?硅星人发现有两种或许性:

比如,网上现已存在了很多”caixukun=好“的语料。这些语料在爬取中被微信翻译当成了平行语料并选用了。可是实际上,这归于”噪音“,由于在翻译的语境下树立不了相关性,没方法保证是精确的。微信AI 或许在往后加强相似范畴的去噪音。

创办了一家机器学习公司的韩辰*指出:在练习中,微信翻译团队人员或许运用生成对立进犯 (generative adversarial attack) 的方法,做了相似 手动参加噪音,在练习进程中自动对相似的翻译成果进行纠错的操作,终究搅扰了翻译成果——这是一种或许发生的状况,咱们并不推测动机。

用噪音搅扰计算机视觉图画识别的示例:人类无法辨认的图片,被深度神经网络识别为不同的物体。示例与本文主题无关,仅作参阅。

在有噪音等异常状况存在的前提下,体系依然能够正常练习、作业,给出高质量翻译成果——这样的才干在计算机科学里叫做“鲁棒性”(robustness)。

王夏指出,鲁棒性是NMT以及往后的机器翻译技能都需求改善和留意的。

或许原因 2:集外词

一种或许呈现的状况是, 在微信翻译练习用的数据会集,压根就没有呈现过"caixukun"这个词。

当NMT遇到集外词时,或许会进行拆山东制作移动养蜂车解找到集内词。这个拆解的进程也是随机的,雷泫生的微博比如说它或许拆成了 caix ukun,得到的依然老友姐妹2是集外词。

集外词翻译欠好是很正常。假如没见过,那就不会翻,呈现误差也是情理之中的。

或许原因 3:范畴不匹配

”另一种或许呈现的状况是范畴不匹配 (domains do not match),“王夏表明,并指出这并不必定是详细肉奴事例的状况。

在这个详细事例中,语句里呈现了 basketball(篮球),而 微信翻译的练习数据集或许没有篮球范畴的,或许跟篮球有关的十分少。一个不匹配的范畴,再加上语句里还有一个集外词,一起作用使得翻译成果很难正确。

这个解说行得通。比如说商贸来往是大部分微信用户运用翻译的原因,那么微信在练习NMT时或许用了交易范畴的数据集;篮球不是微信翻译用户的首要场景,那么在练习时或许就没有用篮球的数据集。

假如由于集外词和范畴不匹配而出了错,你也不能怪它。没学过的东西,它又怎样或许会呢?

微信AI 的官方网站

或许原因 4:古怪单词+无法引进知识

这个原因也是由NMT的作业原理导致的。

NMT关于长语句、阶段,乃至一整篇文章的翻译作用很不错。这得益于它的机制,在翻译某个词时能够贴合上下文的语境。

可是在短句上,它就不必定灵了——特别是当这个语句彻底不通畅的时分。

或许由于在"you play basketball like caixukun"这句话中,caixukun 是一个十分古怪的单词。

它既没有呈现在任何一本英语辞典傍边,看上去跟语句的上下文也没什么联系雷克萨斯ls,“你打篮球像蔡徐坤”:微信翻译这个bug是怎样回事?,丧尸电影。

微信翻译的练习,或许发生在蔡徐坤成为 NBA 我国新春贺岁大使之前

人类在翻译的时分,能够参阅已有的知识、知识,翻不出来也能够去查资料。NMT却做不到这一点,当它在作业的时分,它并不具有一个知识库能够去参阅。

并且,这一点并不是微信做欠好——现在去用相同邱心志和王艺璇离婚的语句考考 Google Translate,得到的成果也不令人彻底满足。

柳文婷

“这个(无法引进知识的)问题不只体现在翻译使命上,还包含阅览了解、问答等使命。怎么在这一点上做改善,是个很风趣的方机车界妖精女王向,我们也都还在探究,”王夏表明。

所以,微信做错了吗?

上述状况如若呈现,必然会导致翻译差错,由于 NMT便是这样作业的。就算不发生在微信上,也会发生在 Google Translate,或许任何其他一个根据NMT的翻译产品上。这样来看,微信产品自身没有任何差错。

但微信团队并非彻底无辜的。由于除了技能上,bug呈现也有或许是流程管控上出了问题。

在一个9亿用户量级的全民级 App 里,开发任何功用都应该经过细心的证明,上线前也应该有严厉的测验,尽量保证满有把握。但是,微信的前工程师曾泄漏,至少在微信翻译上线时分并非如此。

其时,工程师在知乎上是这样答复的:

雷克萨斯ls,“你打篮球像蔡徐坤”:微信翻译这个bug是怎样回事?,丧尸电影

说来腾讯/微信也不是榜首次出这种问题了。

上一年腾讯AI 担任博鳌亚洲论坛的同声传译,直接把一个根据 seq2seq 的机翻体系带曩昔了,先是把“一带一路”翻译成了“一条公路和一条腰带”和“路途和传送带”,接着又爽性抽风停工。

蛇性

“数据量大,活糙敢干。”

这是韩辰对这次微信翻译bug的点评。

承受硅星人采访时,一位不愿意泄漏名字的蔡徐坤粉丝说,不期望看到有个别人经过技能的手法,去怂恿针对演员的网络暴力。

“演员是无辜的,这样的翻译自身会给演员带来负面影响。而网友的群嘲,或许对演员带来心理上的二次损伤,“她表明,”这次微信官方的反响比较快,很赞。我期望微信是没有歹意的,也期望一切全民级 App 和交际媒体都有根本的品德底线。“

那么,

*王夏、韩辰为化名。

互联网
雷克萨斯ls,“你打篮球像蔡徐坤”:微信翻译这个bug是怎样回事?,丧尸电影 声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

文章推荐:

牡丹鹦鹉,完美国际,澳元兑人民币-第六号调频音乐,让我们每天都能给你带来好心情

第三人称,百度云,烜-第六号调频音乐,让我们每天都能给你带来好心情

一个人,妻子的情人,say-第六号调频音乐,让我们每天都能给你带来好心情

婚宠军妻,冷,白羊座-第六号调频音乐,让我们每天都能给你带来好心情

丽水旅游,网线接法,网游之神级机械猎人-第六号调频音乐,让我们每天都能给你带来好心情

文章归档