當前位置:
首頁 > 新聞 > IBM發布圖片文字解讀AI模型,可幫助視障人士日常生活

IBM發布圖片文字解讀AI模型,可幫助視障人士日常生活

6月21日消息,據報道IBM在近期舉行的CVPR上發布一篇有關於解讀圖片內容的論文,據悉IBM Research研究小組為此製作了一個AI模型,其特點是就是能夠給任意的圖像一個生動形象、具有創造力、且形式豐富多樣化的標題或文字解讀。

據悉,當前的自動化圖像轉文字方案最大的不足就是,連續性不夠好,導致部分不連貫、語義不相關等。而該AI模型則利用了attention模型,該模型最大的特點就是可以將圖片內容自動識別並給出一個語句,然後再繼續視覺或語音處理。

為了解決AI模型生成語音不連貫、機械化,該研究小組還採用了對抗網路模型(GAN),其包含兩個神經網路引擎,可對像素級別圖片場景生成的片語進行「自然化」的評分,然後以此來確定整個語句是否連貫。

例如上圖中所示,該AI模型可以床、卧室、森林,之間建立一個診斷工具,以此來提升訓練數據集中的誤差。

據研究人員所述:這套自動圖像字幕和場景理解系統,可以幫助到視障人士的日常生活。

當然,這套系統也非常適合應用到AR眼鏡中。此前,加州理工大學就通過AR頭顯結合了AI語音助理解決方案,來為盲人導航,相信未來這樣的技術會變得更為實用和普及。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 青亭網 的精彩文章:

AWE2019:羅技推出VR墨水手寫筆,還適用AR設備
AWE2019首日:AR眼鏡將大爆發,高通、Rokid發新品

TAG:青亭網 |