當前位置:
首頁 > 新聞 > 用 AI 幫助視障者「聽」世界,專訪微軟盲人工程師 Saqib Shaikh

用 AI 幫助視障者「聽」世界,專訪微軟盲人工程師 Saqib Shaikh

從自動駕駛、無人機,到監控安防,視覺 AI 技術的突破為人們生活帶來了巨大改變,在許多領域迎來爆髮式發展,僅在國內就湧現商湯、雲從、曠視和依圖等四大視覺 AI 獨角獸。但若真要論能為使用者帶來多大改變,恐怕很少有比得上這一項,那就是用視覺 AI 來打造盲人的眼睛。

無障礙人工智慧成顯學,各大科技巨頭亦相繼致力投入

AI for Accessibility、無障礙人工智慧近來已在國際間成為一項顯學。如何將發展迅速的人工智慧技術,用來改善全世界約 10 億殘疾人士的生活,也是各大科技巨頭致力投入的方向之一。

以視障者來說,近日 Instagram 就新增一項輔助功能,用 AI 自動辨識照片內容並以語音告知用戶。臉書 Messenger 也有無障礙機器人(Accessibility Bot),協助盲人辨識臉書朋友,甚至是朋友的臉部表情。華為 Mate 20 Pro 也有一個應用程序 Facing Emotions,可以將七種最普遍的情緒轉化為相應的聲音,可以大幅提升盲人與其他人的實時互動交流。

影像視覺 AI 並不是新的概念,其背後技術主要包含機器學習、深度學習,再加上 3D 臉部辨識等。尤其是深度學習演算法運用在訓練 AI 來協助盲人辨識物體,可以發揮非常大的用處。

比方說,如果我們想要設計一個 AI 協助盲人分辨不同面額的紙鈔。做法就是將一張 10 元紙鈔,通過各種不同角度,包含正面、反面、整張、邊角、其中每一小片圖案,都展示給 AI 看,讓它學習什麼是一張 10 元紙鈔。通過大量反覆學習後,視障者只要能讓手機鏡頭看到 10 元紙鈔的一小角,AI 就能將它分辨出來。

「這些小事,會讓你很確實地感覺到自己的獨立性。希望隨著人工智慧的進展,可以讓我們更容易感受環境,協助我們完成更多日常事務」,微軟視覺輔助應用程序 Seeing AI 的項目主管、同時自身也是視障者的 Saqib Shaikh,近日接受專訪時這樣對 DT 君說。

圖|微軟技術負責人( Tech Lead)Saqib Shaikh (來源:微軟)

Saqib Shaikh 在 7 歲時失去視力,此前不久,他才剛剛得到人生中的第一台電腦。

所幸這並不是他與計算機科學之間的句點

而後他就讀視障學生小學,一位老師看出了他的潛力,鼓勵他開始學習打字。此後他一路進入大學,主修計算機科學,以班上頂尖的成績畢業,並取得人工智慧碩士學位。而後,他又加入微軟的人工智慧團隊,並在大約 3 年前通過微軟內部的黑客松競賽,以 Seeing AI 這個項目脫穎而出,獲得資源將之打造為實際產品,現在已可在美國地區免費下載。

Seeing AI 用視覺 AI 幫助視障者「聽懂」世界

Seeing AI 這個是一款結合圖像辨識、語音說明及人性化使用介面的應用程序,可以用手機上的攝像頭識別所有圖像,包含通過掃描條形碼來識別產品、辨識身旁其他人的年齡,性別和面部表情,還可以描述它在圖片中看到的內容,並閱讀出菜單和文件。

同時,這款應用程序也可以結合智能眼鏡,更好地協助用戶了解所處的周遭環境。

圖|Seeing AI 是一款結合圖像辨識、語音說明及人性化使用介面的應用程序(來源:微軟)

Saqib Shaikh 指出,近年深度學習技術的成熟,是 Seeing AI 可以真正發揮用處的主要關鍵。通過深度學習訓練,向系統展示大量照片,並教導它們照片中的內容,AI 可以真正有效辨識出現實生活環境中的各種物體與人物。

但是,要落實到讓 AI 有效協助視障者在生活中能真正用上,還必須歸功於近年硬體技術的發展,在軟、硬體配合之下,讓視覺 AI 技術實用價值大大提升。尤其是邊緣運算風潮興起,視覺信息可以在裝置終端就能完成運算,才能對使用者提供實時反饋,讓盲人能夠即時對互動對象做出適合的反應。

實時反饋絕對是關鍵。Saqib Shaikh 說,想像一個情境,當你在一個會議上進行簡報。因為這是一個正式場合,因此所有人,包含旁邊的同事、上級主管,都只是安靜聽你說話,不會任意發出聲音。所以在你說話的同時,若無法用眼睛去觀察聽眾,你對於他們的反應是毫無頭緒的,你甚至不知道應不應該繼續說下去,還是暫停下來詢問聽眾的想法。

這時候,如果有一個 AI 可以幫你辨識聽眾的反應,實時反饋你他們是不是看起來滿意、尤其是還能辨認出特定人士,比方說直屬主管的表情和動作如何,這樣一個人工智慧,將能夠大大地讓盲人突破限制,改善他們在日常工作中表現。

非監督學習是視覺AI 下一步突破關鍵

今日我們所談的視覺 AI,其實多半仍局限於靜態圖像、單一圖像,但 Saqib Shaikh 想像中的 Seeing AI 2.0,將可以解讀一系列的圖像、可以掌握使用者的偏好

「就像當我與妻子一起在街上走路時,她會告訴我有什麼我沒看過的新東西、有什麼有趣的事物。比方說,她會告訴我我們很喜歡的一間咖啡店關門了。」Saqib Shaikh 說,「一個真正的人可以了解什麼是你會感興趣、什麼是你會覺得重要的事物。」

而 AI 若要能夠做到這一點,就不能只是一次辨識單一圖像,而是還要能綜合理解背後的情境,甚至是接續出現的新的信息。Saqib Shaikh 分析,這意味著後續 Seeing AI 必須運用更多非監督學習的技術來訓練 AI,進一步拓展 AI 對多變場景複雜信息的處理能力。

其實,Saqib Shaikh 早在求學期間意識到,為了讓身為盲人的自己表現更好,他必須做很多額外的努力來改變他所處的生活環境,包括不只是自己看書、而是要雇請其他人為他朗讀教科書的內容等,才能讓自己與其他正常人站在更接近一點的比較基準上。

當時就有個朋友建議過他,與其只用嘴巴說要改變生活環境,不如實際做點什麼真正的改變。這讓他早就思考過,從某種角度來講,殘疾者本人其實就是最好的創新者。因為,他們比任何人都了解殘疾者最迫切的需求是什麼?願意做什麼嘗試?可以如何改變?

然而,在 Saqib Shaikh 進入微軟工作的近乎前 10 年,他並未在工作上試圖突出任何作為一個盲人的特殊能力。相反的,他讓自己就像一名正常的工程師一樣,絕大多數時間都投入內部的主流專案,如 Cortana 等。

(來源:微軟)

「我想,起初我是想證明自己可以成為一個主流的工程師」,Saqib Shaikh 說,而轉捩點是出現在他於微軟工作的第10年。「工作滿 10 年後,我覺得我已經達到了目標,證明了自己的能力,所以我可以開始運用自己的專業去幫助其他人。「

現在,他終於決定投入自己真正想做的事情,也就是用 AI 來改善殘疾人士的生活環境。就像他所說的,「我可以選擇用這一種與我自己最相關的方式,從個人經驗來理解許多盲人的問題,並且用自己的專業來提供協助。」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

話宇專欄丨「追夢者」定於兩年內首飛,人類將再回太空梭時代
禾多科技倪凱:專註可量產技術,自動駕駛未來3-5年可望產生回報

TAG:DeepTech深科技 |