當前位置:
首頁 > 新聞 > 讓2000種語言交流無礙,Masakhane要用AI和機器學習改變非洲

讓2000種語言交流無礙,Masakhane要用AI和機器學習改變非洲

【獵雲網(微信號:ilieyun)】12月1日報道(編譯:Liam)

在非洲,許多部落和民族群體以及國境線邊上的人都在說英語、阿拉伯語或者一些法語方言,但沒有一種是屬於非洲本土的語言。據估計,非洲大陸上現存的語言就有2000多種,這不僅會妨礙人們的溝通交流,還會干擾商業運行。有需求就會有創新,Masakhane開源項目應運而生。今年早些時候,非洲的技術人員推出這個項目,旨在利用神經機器翻譯技術來翻譯非洲語言。

其中,來自肯亞盧希亞部落的Kathleen Siminyu曾是內羅比(肯亞首都)「女性機器學習和數據科學」組織的聯合創始人,同時也是「人工智慧促進發展」項目的協調員。因為肯亞的學校和全國各地都說英語,可同時肯亞各個部落又有不同的語言,這就導致了Siminyu和她的鄰居之間的溝通障礙。因此今年早些時候,為了增強社區凝聚力,Siminyu選擇加入了Masakhane。

Siminyu認為,機器學習的語言翻譯將會帶來非洲人工智慧應用的逐漸普及,讓非洲人民能夠藉助人工智慧更好地改善生活。而像Masakhane這樣的項目,對於連接非洲地區的開發人員和研究人員並同時建立長期合作來說,是相當重要的。

Siminyu表示,她希望研究網路可以在非洲良好地運作。在她看來,語言作為人們的溝通障礙,一旦能將其克服,許多非洲人就能夠參與到數字經濟中去,並最終進入人工智慧經濟領域。一直以來,Siminyu都在為非洲的本土語言發展而努力,她覺得自己有責任把還未進入數字時代的非洲同胞們帶入人工智慧時代。

Masakhane項目的合作對象包括非洲各地的人工智慧研究人員、數據科學家,旨在創建能夠溝通非洲大多數人口的神經機器翻譯。在Deep Learning Indaba(與人工智慧和深度學習有關的會議)和Sauti Yetu NLP Unconference之後,南非的Jade Abbott和Laura Martinus發起了Masakhane這一項目,在祖魯語中,「Masakhane」是「我們共同建設」的意思。

Masakhane與跨國翻譯組織和學者一起搜集語言數據集。除了將非洲本土語言翻譯成英語外,該項目還試圖對奈及利亞的洋涇浜英語和北非及中非地區的阿拉伯語等方言進行翻譯。

在為非洲語言創建了機器翻譯之後,Masakhane還希望能有更多開源項目來造福非洲人民。

Masakhane現在統計了來自非洲大陸的大約60名參與者,其中最活躍的來自南非、肯亞和奈及利亞。每個參與者都被要求用各自的母語幫助收集數據,改善模型。

其實,在通過讓非洲人收集數據使得更多其他非洲人能夠使用機器翻譯的道路上,Masakhane並不孤獨。

就在這周,Mozilla和德國政府部門啟動了一個開源項目,收集非洲當地語言的語音數據。

本月早些時候,作為人工智慧促進發展工作的一部分,Siminyu與數據科學網站Zindi共同發起了「非洲語言數據集搜集挑戰」項目。除了Siminyu和Abbott,評估數據集的顧問還來自於谷歌人工智慧和Facebook人工智慧研究。活動的參與者製作的數據集將來可能會被用於訓練Masakhane的神經模型。

從GitHub的2019年Octoverse報告來看,肯亞和奈及利亞等國家已經成為全球開源項目增長最快的國家。最近幾周,非洲技術和開發者生態系統的增長吸引了包括Twitter首席執行官傑克·多西和GitHub首席執行官Nat Friedman在內的眾多矽谷高管來非訪問,特別是奈及利亞的拉各斯等非洲部分地區。

在一次集體採訪中,Masakhane項目的志願者表示機器翻譯能給非洲的發展帶來巨大的好處。

語言翻譯改變非洲

受訪者來自非洲大陸的各個角落,包括突尼西亞、奈及利亞、南非和剛果民主共和國等,他們希望能將非洲納入全球人工智慧地圖,讓非洲人可以非洲方式解決非洲問題。

負責約魯巴語的奈及利亞研究人員Olabiyi Samuel表示,他們可以解決他們的問題,而且他們有著足夠的專業知識,只是需要對其承擔一些責任。

只要非洲語言的機器翻譯足夠普及且準確,就能讓更多非洲人與全球人在線交流,還有可能快速地將英文的教學資源轉換成非洲語言。多項研究發現,當人們以母語接受教學時,他們會學得更好。

Siminyu和其他項目參與者希望Masakhane能為後續更多研究項目打下基礎,讓人工智慧更好地改善非洲人民的生活以及其他非常重要的環節。

Siminyu表示,非洲還有很多問題亟待解決,比如農業問題、糧食問題、氣候變化、醫療保健等等,而這一切的切入點就是語言。解決非洲問題,任重而道遠。

剛果民主共和國的Espoir Murhabazi目前主要研究班圖語Lingaga。他想更好地理解班圖語,以及了解機器學習是如何從包含共同詞根的單詞中推斷出含義的。班圖語屬於黏著語,這也就意味著它的單詞可能包含詞幹含義和多個要素。班圖語的研究能為Masakhane目前在研究語言之間的結構差異時遇到的一系列技術挑戰提供一定的參考。

在娛樂方面,Murhabazi希望像Masakhane這樣的項目能夠將歌曲的歌詞翻譯成英語,讓每個喜歡音樂的人都能理解歌詞。

他曾進過一次肯亞的酒吧和夜總會,人們伴著音樂跳著舞,但是他卻聽不懂背景音樂是什麼意思。

Masakhane計劃

Masakhane的工作將分階段進行,首先是藉助政府文件或報紙等公開數據將英語翻譯成非洲語言。接著,他們打算為機器翻譯創建單獨的基準模型。最後,再將成果提交給全球頂級的自然語言處理(NLP)討論會。

Abbott表示,該項目現在處於數據收集和翻譯階段,因為與構成現代互聯網主幹的歐洲語言不同,非洲語言缺乏基準和大型數據集。

非洲、人工智慧與世界

Masakhane的參與者們不僅希望能將非洲人民帶入數字經濟,能用他們自己的語言學習知識,還希望這個由非洲人自己創建的人工智慧項目能夠減少一直以來非洲人工智慧研究人員面臨的技術限制。

多年來,許多國際人工智慧的會議都在歐洲、亞洲以及北美舉辦。雖然該行業以及各國對人工智慧的人才需求量很高,但是有些政府往往會拒絕非洲研究人員加入項目研究,即使他們接受的也是西方國家的教育。

據報道,就當世界上最大的人工智慧研討會NeurIPS在溫哥華舉辦之際,包括Masakhane志願者在內的非洲和亞洲研究人員,都收到了加拿大政府拒絕發放簽證的通知。

建立技術交流的橋樑

對於Abbott和Martinus來說,能到非洲以外的其他地方參加人工智慧交流(比如NeurIPS)能為他們的研究帶來許多幫助。在這些重要的會議上,其他的NPL開發人員會分享100多個他們在試圖優化模型性能的時候發現的技巧以及總結出的觀點和經驗。

在Abbott看來,和來自全球那些參與語言資源少的語言研究工作者進行交流,真的可以激發起他自己的研究興趣。

例如,在Masakhane項目發起不久後,他們參加了國際計算語言協會,從Jehovah』s Witness的文本中發現了380種語言的JW300數據集。

他們正在研究的數據集範圍是兩萬個平行句,在機器翻譯領域中已經是很小的範圍了。而在這個JW300數據集中,同一語言有100萬個平行句,在數量上可以說是一個巨大的飛躍。

2018年,Abbott和Martinus在arXiv上發表的《針對非洲語言的神經機器翻譯》在NeurIPS的發展中國家機器學習會議進行了分享。他們詳細地講述了早期將Transformer(一種神經網路)應用於資源少的語言時的發現。通過一系列技術的運用,實現了英語到班圖族的茨瓦納語的最頂尖翻譯。

Masakhane項目仍處於早期階段,正在尋找志願者,收集上千種語言的數據。

像MySQL、Python和TensorFlow這樣的開源項目為現代互聯網和機器學習等蓬勃發展的學科研究奠定了基礎。如今,歐洲、亞洲和北美等地在開源項目的研究上仍處於領先地位。但是,一旦Masakhane及類似的項目取得成功,這可能會為有著地球上人口最年輕的非洲大陸以及其他地區帶來重大改變。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 獵雲網 的精彩文章:

AI尿檢、馬桶革命?兩位科學家為此親自「尿」了10天