2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
谷歌今天宣布在谷歌翻譯中發(fā)布了從英語到西班牙語、芬蘭語、匈牙利語和波斯語到英語的性別翻譯,該翻譯利用了一種新的范式,通過重寫或后期編輯最初的翻譯來解決性別偏見。這家科技巨頭聲稱,這種方法比之前支持谷歌Translate將性別特定性的土耳其語翻譯成英語的技術(shù)更具可擴展性,主要是因為它不依賴于數(shù)據(jù)密集型的性別中立檢測器。
谷歌Research的高級軟件工程師梅爾文·約翰遜寫道:“自從我們推出以來,我們已經(jīng)取得了顯著的進步,我們提高了性別翻譯的質(zhì)量,并將其擴大到4對以上的語言對。”“我們致力于進一步解決谷歌翻譯中的性別偏見,并計劃將這項工作擴展到文檔級翻譯。”
正如約翰遜所解釋的那樣,用于將突厥語翻譯成英語的性別分類器很難適應(yīng)新語言,因此無法使用神經(jīng)機器翻譯(NMT)系統(tǒng)獨立地生成男性化和女性化的翻譯。此外,在多達40%的符合條件的查詢中,它無法顯示針對性別的翻譯,因為除了與性別相關(guān)的現(xiàn)象外,這兩種翻譯通常并不完全相同。
相比之下,這種基于重寫的新方法首先生成翻譯,然后對其進行審查,以確定在哪些情況下,性別中立的源短語生成了性別特定的翻譯。如果是這樣的話,一個句子層次的改寫者會拋出一個替代的性別化翻譯,第一個和重寫的翻譯都會被審查,以確保性別是唯一的區(qū)別。
根據(jù)谷歌,構(gòu)建改寫器涉及生成數(shù)百萬個由詞組對組成的訓(xùn)練示例,每個詞組都包含陽性和陰性的翻譯。因為數(shù)據(jù)不容易獲得,谷歌翻譯團隊必須想出候選人重寫交換性別代詞從男性女性(或者相反),從一個大單語數(shù)據(jù)集。重寫這個語料庫,工程師運用內(nèi)部語言模型訓(xùn)練在數(shù)以百萬計的英語句子選擇最好的候選人,進了訓(xùn)練數(shù)據(jù),從一個女性男性化的輸入輸出,反之亦然。
在合并來自兩個方向的訓(xùn)練數(shù)據(jù)之后,團隊使用它來訓(xùn)練一個基于單層轉(zhuǎn)換的序列到序列模型。然后,他們在訓(xùn)練數(shù)據(jù)中引入標點符號和大小寫變體,以增強模型的魯棒性,從而使最終的模型在99%的情況下都能可靠地生成所要求的陽性或陰性重寫。
谷歌度量稱為偏見減少評估,衡量之間的相對減少偏見新的翻譯系統(tǒng)和現(xiàn)有系統(tǒng)(“偏見”被定義為在性別選擇翻譯未指明的來源),約翰遜說,新方法導(dǎo)致偏見減少≥90%翻譯來自匈牙利、芬蘭,波斯英語?,F(xiàn)有的突厥語-英語翻譯系統(tǒng)的偏差減少率從60%提高到95%,該系統(tǒng)引發(fā)性別差異翻譯的平均準確率為97%。在,當它決定顯示性別特定的翻譯時,97%的正確率。
改進后的谷歌翻譯系統(tǒng)推出的幾個月前,谷歌通過其云視覺API取消了在圖像中將人標記為“男人”或“女人”的功能。另外,在2018年1月,谷歌屏蔽了Smart Compose(一項Gmail功能,當用戶鍵入句子時,它會自動為用戶推薦句子)和基于性別的代詞。
對語言翻譯和計算機視覺采取中性態(tài)度,是谷歌在減輕人工智能系統(tǒng)偏見方面所做的更大努力的一部分。這家山景城(Mountain View)的公司利用其人工智能道德團隊開發(fā)的測試來發(fā)現(xiàn)偏見,并禁止其預(yù)測技術(shù)中出現(xiàn)咒罵、種族歧視、提及商業(yè)競爭對手和悲劇事件等字眼。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。