當前位置:
首頁 > 最新 > 「中文十級」難題,AI怎樣解讀

「中文十級」難題,AI怎樣解讀

「中文十級」難題,AI怎樣解讀

產業界

陶玉祥 本報記者 盛 利

在人工智慧領域,「懂語言者得天下」是普遍的共識。其中,可幫助人工智慧識別人類語言的自然語言處理(NLP)被譽為人工智慧語言「皇冠上的明珠」。

當人工智慧自然語言處理技術遇到「要你管和不要你管」「掉地上和掉地下」「我一把把把把住了」等中文「繞口令」,「小意思」「意思意思」等多義詞時,及「俺們那疙」「中不中」等方言時,該怎樣「聽懂」這些「中文十級」語句呢?日前在成都舉辦的科大訊飛未來科棧活動上,記者採訪了相關專家。

能分詞會斷句 機器尚在努力

NLP就是機器讓計算機來理解和處理人類自然語言的技術,它和計算機視覺、語音處理的區別在於信息處理的類型。

「計算機視覺主要處理圖像,語音技術處理聲音,而NLP主要是對文字的理解。」雲浮科技的創始人兼CEO張文斌說,在人工智慧中,語音識別是耳朵,語音合成是嘴巴,計算機視覺是眼睛,而NLP則負責將抽象的文字元號轉化為計算機能理解的語言。

「『中文十級』的某些語句,人類去理解都有很大難度,何況是計算機。」張文斌說,在口語和書寫上,漢字往往沒有詞與詞之間的邊界,即便機器能夠準確識別文字,但理解它的意思卻很難;再比如各種五花八門的地方口音和方言,也是「絆腳石」。

「自然語言處理一般從最小的語意單位『詞』開始,即分詞演算法。這最簡單,也最成熟。」張文斌說, NLP的演算法分為語法級別、句子級別分析等,其中分詞就是將字詞切開,讓機器明白哪幾個字組成一個詞,哪幾個片語成一句話,從而理解整句、整段的意思。但在「分詞」實際的應用過程中,仍有各種問題。

張文斌解釋,首先是分詞標準不確定、存在歧義,及新詞和實體詞困擾等問題。如「乒乓球,拍賣完了」和「乒乓球拍,賣完了」無論怎麼切分都正確,這就要依賴上下文語境。其次,每年都會湧現出的網路辭彙,「神馬」「不明覺厲」「佛系」等原來不存在的詞也需要計算機理解。

聽語氣判關係 AI有新招

如何讓機器讀懂上下文語境,從而進一步了解整段話的含義?

「我們會嘗試利用聽人類說話時的停頓信息,作為一種分詞演算法的輔助。」訊飛翻譯業務負責人翟吉博說。

對於AI工程師們來說,更重要的是深層次的演算法,如實體識別、屬性抽取等。「就是把人名、地名、機構名等實體識別出來後,再抽取實體之間的關係,搞清楚不同實體在句子中的不同屬性。」張文斌說,五花八門的演算法還有很多,比如情感分析,分析文本裡面蘊藏了什麼樣的情感,是正面、負面還是中性的;文檔摘要,把長文生成一兩百字簡短的摘要等。而基於這些演算法層,又可以做很多NLP的衍生應用,包括自動問答、機器翻譯等。

那如何識別方言呢?在科大訊飛的新款翻譯機設備中,首次推出方言翻譯功能,實現河南話、東北話、粵語等方言互譯,或將之翻譯成外語。翟吉博說,針對不同類型方言,機器採用不同翻譯流程——對同屬北方方言區的河南話、東北話等,可先翻譯成普通話再翻譯成外語;對於粵語等南方語言,則建立獨立的語料庫,直接從粵語到外語進行翻譯。「考慮到方言中帶有許多地方特色的說法、語言、辭彙,『雄起』『中不中』等也可以作為獨立的語料,由機器單獨學習。」他說,人工智慧的優勢是在自然語言處理方面能夠不斷從用戶處積累語料,學習新的辭彙和表達方式,不斷完成自身資料庫和語料庫的更新。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!

TAG: |