IBM發布圖片文字解讀AI模型，可幫助視障人士日常生活

新聞 06-21

6月21日消息，據報道IBM在近期舉行的CVPR上發布一篇有關於解讀圖片內容的論文，據悉IBM Research研究小組為此製作了一個AI模型，其特點是就是能夠給任意的圖像一個生動形象、具有創造力、且形式豐富多樣化的標題或文字解讀。

據悉，當前的自動化圖像轉文字方案最大的不足就是，連續性不夠好，導致部分不連貫、語義不相關等。而該AI模型則利用了attention模型，該模型最大的特點就是可以將圖片內容自動識別並給出一個語句，然後再繼續視覺或語音處理。

為了解決AI模型生成語音不連貫、機械化，該研究小組還採用了對抗網路模型（GAN），其包含兩個神經網路引擎，可對像素級別圖片場景生成的片語進行「自然化」的評分，然後以此來確定整個語句是否連貫。

例如上圖中所示，該AI模型可以床、卧室、森林，之間建立一個診斷工具，以此來提升訓練數據集中的誤差。

據研究人員所述：這套自動圖像字幕和場景理解系統，可以幫助到視障人士的日常生活。

當然，這套系統也非常適合應用到AR眼鏡中。此前，加州理工大學就通過AR頭顯結合了AI語音助理解決方案，來為盲人導航，相信未來這樣的技術會變得更為實用和普及。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 青亭網 的精彩文章: