在訓練AI學習英語時,別忘了還有非裔英語
人們經常僅僅根據一個人的說話方式就很快知道他從哪裡來。而現在,部分AI系統甚至也正在學習「歧視」某些方言。隨著基於語言學習的AI系統越來越普及,該領域的研究專家們發出了這樣的警告:一些少數方言或語言可能已經被機器自動忽略了。
說話帶有很重的地方口音或者奇怪口音的人大概會有這種感受:Siri或者Alexa總是聽不懂你說了什麼。這是因為它們的聲音識別系統利用自然語言技術來解析你的聲音,而自然語言技術的演算法則通過樣品數據來訓練機器識別人聲的能力。這就導致了,如果某種口音或是方言沒有足夠的樣本數據的話,AI系統可能會幹脆放棄或排除它們。
這個問題帶來的後果可能比我們想的更麻煩且影響廣泛。自然語言技術現在已經用於自動客戶服務,自動電話聊天或網路聊天服務中。它還被用於挖掘網路或社交媒體的公眾意見,梳理收集文章的有用信息。這意味著,所有利用自然語言技術的服務都可能成為潛在的歧視特定少數人群的「幫凶」。
馬薩諸塞大學的助理教授Brendan O`Connor和他的學生Su Lin Blodgett對推特上的語言使用情況作了一項調查。他們使用人口統計過濾工具在推特中揀選了5920萬條包含非洲美式俚語的推文作為樣本, 再利用一些基於自然語言技術的常用工具對這些推文進行分析。結果發現,這些推文卻被識別為丹麥語,而且系統對此並沒有太多懷疑。
「如果人們利用推特來分析大眾關於一味政治家的意見,而這個分析工具卻完全不考慮非裔美國人或者年輕人在說什麼,這就不太好了。」O`Connor說。
研究人員們還測試了一些用於分析文本大意或是其中情緒的基於機器學習的API,結果同樣的不樂觀。「如果你從一家公司購買一套情緒分析應用,你並不會知道這裡面有著怎樣的偏向性。」O`Connor說,「我們連關於這種偏向性帶來的歧視風險的評判審核都沒有多少。」
他還說,這種歧視問題不僅存在於上面說到的系統中,它存在於任何使用語言的系統中——包括搜索引擎。
隨著AI的推廣,有關使用AI演算法的不公正問題已經在世界的許多角落越來越多的引起人們的注意。一個關於偏向性演算法的廣受爭議的例子,是一款叫做Compass的專有演算法,它被用於判斷一個犯人是否應當被假釋。Compass裡面的演算法並沒有公開,不過有研究表示,它可能存在做出不利於黑人囚犯的判斷的偏向性。
還有專家甚至表示,這一問題的實際影響可能早已比人們已知的更嚴重,它將會影響到人們在金融、 醫療、教育等領域的諸多決定。
馬薩諸塞大學的研究人員已經在一次探討關於AI中的偏向性問題的Workshop中發表了他們的研究成果。今年,一個大型的數據科學大會中,有一個名為「機器學習中的公正與透明」的環節,而這一環節將會在2018年作為獨立的單元舉辦。康奈爾大學的助理教授、同時也是這一活動的共同創始人之一Solon Barocas說,人們對於這一領域的的關注正在增長,越來越多的研究人員們在探討AI中的偏向性帶來的後果。
斯坦福大學的助理教授Shared Goel 主攻研究演算法的公正透明政策。 他說,關於這一問題不應該直截了當的簡單下定論:說一個演算法本身帶有偏向性這一結論可能太過片面, 因為這種研究可能本身就是有目的的,而事先的假設範圍又太過狹窄,卻被用來反映一個廣泛的社會性問題。「也許我們更應該描述一個演算法到底在做什麼,它為什麼這樣做,然後再去決定著是不是我們想要的演算法。」
點擊展開全文
※人工智慧又有了新用處,微軟利用它來訓練滑翔機自主飛行
※科學家首次拍攝出病毒感染健康細胞過程的3D影片
※微型晶元可實現細胞「變種」,皮膚細胞有望成為人體損傷救命稻草
TAG:DeepTech深科技 |
※英語之外有英語:dirty work的口語訓練
※和安東尼御用訓練師特訓,還苦學英語,小丁這是要在美國發展?
※為了訓練天才兒童思維,美國人研發一套練習冊,以科學為主線,數學英語全包括
※英語之外還是英語:give sb.the eye的口語訓練
※短語go to town的英語意思和口語訓練
※你真的是把英語閱讀當「閱讀」還是當「英語能力」訓練?
※一學就會的自閉症語言訓練指南
※孩子語言發育遲緩,不能等;家長需Get訓練的技巧
※一個模型,解決你英語聽說訓練80%的痛點
※英語啟蒙:找到適合孩子的訓練方法
※初學者在腹部訓練中經常會犯的錯誤,你是否也一樣
※超燃脂HIIT訓練:瘦身不在話下
※誰是非韓最強?AFS中野:我們和RNG打過訓練賽,他們是最強戰隊
※當我們談「科學訓練」的時候,我們在談什麼?
※通過恐怖圖片,美國科學家將AI訓練成了神經病
※寶寶貴人語遲 都怪家長進入這幾大語言訓練誤區
※「星語者」的訓練課
※認知語言訓練
※看「別人家孩子」識字多先別慌,學字之前這些訓練也很重要!
※在這裡,你竟然能和「美國隊長」肩並肩訓練和學習!