通常用于訓練AI系統(tǒng)檢測表情的數(shù)據(jù)集偏向某些人口群體

2020-07-28 08:34:58 編輯：來源：國際品牌資訊

導讀研究人員聲稱，通常用于訓練AI系統(tǒng)以檢測幸福，憤怒和驚奇等表情的數(shù)據(jù)集偏向某些人口群體。在Arxiv org上發(fā)表的預印本研究中，與劍橋大學

研究人員聲稱，通常用于訓練AI系統(tǒng)以檢測幸福，憤怒和驚奇等表情的數(shù)據(jù)集偏向某些人口群體。在Arxiv.org上發(fā)表的預印本研究中，與劍橋大學和中東技術(shù)大學有關(guān)聯(lián)的合著者在兩個開源語料庫中發(fā)現(xiàn)了偏斜的證據(jù)：真實世界的面部表情數(shù)據(jù)庫(RAF-DB)和CelebA。

機器學習算法之所以變得偏頗，部分原因在于它們提供了訓練樣本，這些樣本優(yōu)化了針對多數(shù)人群的目標。除非明確修改，否則它們在少數(shù)群體(即以較少的樣本代表的人群)中表現(xiàn)較差。在面部表情分類之類的領(lǐng)域中，很難補償偏斜，因為訓練集很少包含有關(guān)種族，性別和年齡等屬性的信息。但是，即使是那些做提供的屬性通常分布不均。

RAF-DB包含來自互聯(lián)網(wǎng)的數(shù)以萬計的圖像，包括面部表情和屬性注釋，而CelebA擁有202,599張圖像，包含10,177人的4??0種屬性注釋。為了確定兩者之間存在偏差的程度，研究人員對隨機子集進行了采樣，并對齊并裁剪了圖像，以使面部在方向上保持一致。然后，他們使用分類器來衡量準確性(模型得到的預測分數(shù)的正確性)和公平性(分類器是否對性別，年齡和種族等屬性公平)，即分類器應在整個過程中提供相似的結(jié)果不同的人口群體。

研究人員報告說，在RAF-DB的圖像子集中，絕大多數(shù)受試者-77.4%-是白人，而15.5%是亞洲人，只有7.1%是非裔美國人。該子集也顯示出性別偏斜，女性為56.3%，男性為43.7%。準確的范圍從少數(shù)族裔的低(亞裔女性為59.1%，非裔女性為61.6%)到多數(shù)(白種人為65.3%)不等，在公平性指標上，研究人員發(fā)現(xiàn)其種族低(88.1%)，但總體性別比例較高(97.3%)。

在CelebA子集上，研究人員訓練了一個更簡單的分類器，以區(qū)分兩類人：微笑的人和不微笑的人。他們指出，該數(shù)據(jù)集存在較大的偏差，只有38.6%的不笑男只有61.4%的不笑男。研究人員稱，分類器對年輕女性的準確率為93.7%，但對老年男性(90.7%)和女性(92.1%)的準確性較低，盡管這在統(tǒng)計學上不顯著，但表明分布不均。

迄今為止，存在著各種各樣的面部表情識別任務數(shù)據(jù)集。然而，實際上，這些數(shù)據(jù)集都沒有考慮到包含在敏感屬性(例如性別，年齡和種族)方面在整個人群中均勻分布的圖像和視頻而獲得的，”合著者寫道。

許多人認為，面部表情數(shù)據(jù)集的明顯偏見凸顯了監(jiān)管的必要性。至少有一家專門從事情感識別的AI初創(chuàng)公司Emteq呼吁制定法律以防止濫用技術(shù)。心理科學協(xié)會(Association for Psychological Science)委托進行的一項研究指出，由于情感是以多種方式表達的，因此很難從表情中推斷出人們的感受。紐約大學研究機構(gòu)AI Now Institute則在研究AI對社會的影響。該機構(gòu)在

標簽： AI系統(tǒng)