杉果游戏官网

您现在的位置是:首页 > 新闻动态 > 杉果游戏官网_Google遵循AI原则减少机器翻译的性别偏见

杉果游戏官网_Google遵循AI原则减少机器翻译的性别偏见

文章来源:杉果游戏官网  作者:杉果游戏官网  发布日期:2021-10-10  浏览次数:962  【打印】  【关闭】   【返回

得益在神经机械翻译 (NMT) 的前进,译文加倍天然流利,但与此同时,这些译文也反应出练习数据存在社会成见和呆板印象。是以,Google 延续致力在遵守 AI 原则,开辟立异手艺,削减机械翻译中的性别成见。

神经机械翻译

https://ai.谷歌blog.com/2020/06/recent-advances-in-谷歌-translate.html

此中一个研究范畴是操纵句子或段落等上下文,来提高性别表述的正确性。传统 NMT 方式是零丁翻译句子,但零丁的句子中其实不是总能带有对性别信息的明白申明,是以这无疑会带来挑战。例如,鄙人方西班牙语(该说话其实不老是明白说起主语 (Null-subject language))段落中,第一句话明白将 Marie Curie 视为主语,但第二句话没有明白说起主语。孤立来看,第二句话可以指任何性此外人。但是,在翻译成英语时,需要选择一个代词,而翻译正确所需的信息就在第一句话中。

西班牙语文本英语译文Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades.Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties.

假如想鞭策翻译手艺,让其不止步在单句翻译,则需要新指标来权衡进展,而且需要新数据集,此中包罗最多见的上下文毛病。翻译性别毛病(如选择准确的代词或性别一致)可能直接触及到人和自我认同体例,是以特别敏感。而这一点则进一步加重了挑战。

为应对上下文翻译的常见挑战(如代词省略、性别一致和正确利用所有格),我们发布了 Translated Wikipedia Biographies(维基百科列传译本)数据集,可用在评估翻译模子的性别成见。发布此数据集的目标在在供给权衡模子改变前后的翻译正确性的基准,从而对翻译中代词和性此外 ML 系统进行持久改良。

Translated Wikipedia Biographies(维基百科列传译本)

https://storage.谷歌apis.com/gresearch/translate-gender-challenge-sets/Readme.html

常见翻译毛病的来历

“维基百科列传 (Wikipedia:Biographies of living persons) ”颠末精心撰写,涵盖多个地区,包括多个句子,并以第三人称指代主语(所以包括年夜量代词)。是以极有可能呈现性别相干的翻译毛病。当文章在段落前几句中明白说起或人,但在后面的句子中没有明白说起时,凡是会呈现性别相干的翻译毛病。一些示例以下:

翻译毛病文本译文西班牙语→英语中的代词省略(Pro-drop language)Marie Curie nació en Varsovia.Recibió el PremioNobel en 1903 y en 1911.Marie Curiewas born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911.西班牙语→英语中的中性所有格(Possessive determiner)Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia.Marie Curiewas born in Warsaw.Hisprofessional career was developedin France.英语→德语中的性别一致(Grammatical gender)Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prizein 1903 andin 1911.Marie Curiewurde in Varsovia geboren.DerangeseheneWissens-chaftlererhielt1903 und 1911denNobelpreis.英语→西班牙语中的性别一致(Grammatical gender)Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prizein 1903 andin 1911.Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911.

构建数据集

如上文所示,Translated Wikipedia Biographies(维基百科列传译本)数据集旨在阐发机械翻译中常见的性别表述毛病。该数据集中的每一个实例代表小我(在列传中被认为是女性或男性)、摇滚乐队或活动队(被视为性别无关)。每一个实例都均由 8 到 15 个彼此联系关系的句子构成的长文本翻译来暗示,且这些句子中会提到中间主语(人、摇滚乐队或活动队)。文章撰写的源说话为英语,并由专业人士处置,翻译成西班牙语和德语。我们已针对代词省略,对西班牙语译文进行优化,是以可使用不异的调集来阐发代词省略(西班牙语→英文)和性别一致(英语→西班牙语)。

我们选择一组在分歧地区和性别之间具有划一代表性的实例构建该数据集。为此,我们按照职业、专业、工作和/或勾当,从维基百科中提取列传。为了确保职业选择的公允性,我们按照维基百科的统计数据,选择了九种职业。这些职业代表了一系列呆板的性别联想(女性、男性或二者都不是)。为了减轻任何基在地区的成见,以后我们按照分歧地区来划分所有这些实例。对每一个职业种别,我们但愿每一个地域(利用 census.gov 中的地域作为分歧地区的代表)都有一位人选。在联系关系实例与地域时,我们会查抄被选者是不是与指定地域的国度具有相干性(国籍、诞生地、持久栖身之地等等)。该数据集利用此尺度,包括了来自世界 90 多个国度和所有地域的小我条目。

固然性别并不是二元化,但我们专注在令“女性”和“男性”实体具有划一代表性。值得一提的是,因为维基百科经由过程这类体例来暗示实体,今朝此中的实例还不足以正确反应非二元群体。是以很遗憾,该调集其实不包罗标识为非二元的小我。为了将每一个实例贴上“女性”或“男性”标签,我们依托的是维基百科上的列传信息,此中包括对这人特定性此外参考资料(她、他、女人、儿子、父亲等)。

在利用所有这些过滤前提以后,我们会为每一个“职业-地域-性别”三元组随机选择一个实例。针对七个地舆区域的每种职业,我们都遴选了两份列传(一份男性列传和一份女性列传)。

最后,我们添加了 12 个性别无关实例。之所以选择摇滚乐队和活动队,是由于它们凡是由无性此外第三人称代词(如“它”或复数情势的“它们”)所指代。包括这些实例是为了研究过度触发 (over triggering),即当模子得知其因发生特定性此外代词而取得嘉奖时,它们会在本不该该的环境下发生这些代词。

成果和利用

该数据集为下降机械翻译中的性别成见供给了一种新的评估方式(前一篇文章中已有所介绍)。每一个实例都指向已知性此外主语,是以我们可以计较出指向该主语的、特定性别翻译的正确性。在翻译成英语(该说话有代词省略或中性代词)时,由于首要计较基在英语的特定性别代词,所以这类计较更加轻易。在这些环境下,与先前模子比拟,上下文感知模子操纵性别数据集,将毛病数目削减了 67%。如前所述,我们可操纵中性实体,如利用阴性或阳性代词来指代无性别实体,来发现过度触发的环境。这个新数据集还为分歧类型的职业或地舆区域中分歧模子的机能供给了新的研究标的目的。

好比,我们操纵该数据集,在翻译自西班牙语的 Marie Curie 列传节选中发现了改良的地方。

结论

Translated Wikipedia Biographies(维基百科列传译本)数据集是我们在研究辨认与性别和机械翻译有关的成见方面的工作功效。该数据集偏重在与性别成见有关的具体问题,其实不旨在涵盖全部问题。值得一提的是,我们发布此数据集的目标其实不在在强调肯定解决性别成见的最好方式,而是帮忙鞭策全球研究界在应对这一方面挑战。

称谢

这些数据集的构建获得了以下人员的帮忙:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

责任编纂:haq

Copyright © 2020 Shanghai Lineprinting Materials Co., ltd. All rights reserved .
Tel: (+86)21-57760077 Address:No.945,Huifu road, Waigang Town, Jiading District, Shanghai