「掌上計算機視覺大有可為」智能終端圖像識別、美化、生成應用盤點
2017 年 11 月 8 日,在北京國家會議中心舉辦的 AI WORLD 2017 世界人工智慧大會開放售票!早鳥票 5 折 搶票倒計時 7 天開搶。還記得去年一票難求的AI WORLD 2016盛況嗎?今年,我們邀請了冷撲大師」之父 Tuomas 親臨現場,且谷歌、微軟、亞馬遜、BAT、訊飛、京東和華為等企業重量級嘉賓均已確認出席。
毫無疑問,人工智慧和機器學習是近來最熱門的話題。大數據和強有力的GPU使得人工智慧為幾乎所有行業提供動力。現在,AI甚至可以放在手機一類的設備上。移動AI,尤其是計算機視覺,已經成為人們生活中重要的一部分。本文將會從最新趨勢、未來機會、用戶將如何使用手機上的AI等方面進行分析。
三個計算機視覺方面的應用正在興起:圖像識別、圖像優化和圖像生成。
圖像識別:時尚、零售、設計、醫療……各行業的有趣應用
我們可以期待更多類似於Shazam的應用程序(Shazam 是一款可以識別您周圍播放的音樂和電視節目的移動應用程序)。時尚、零售和室內設計等垂直領域能從處理圖像的應用程序中受益。看到吸引你的東西時,你可以拍張照片,然後這種圖像識別的軟體就能幫助用戶在線上商店裡找到相同或類似的產品。舉個其他例子,如果你喜歡某人的外表,你可以給那人拍照,用軟體查詢在哪裡能買到類似的衣服和首飾。
例如,Pinterest最近推出了其鏡頭工具,用戶將手機攝像頭對準一個物體,在Pinterest就能查到相同或類似的產品。Houzz是一家家居裝飾公司,他們提供視覺匹配服務,幫助用戶找到喜歡的圖片中的物品。The Flow用戶通過相機就能識別在亞馬遜銷售的產品並獲得有關的信息,包括物品描述、評論、視頻/音頻片段。
在醫療領域,尤其是皮膚病檢測,圖像識別也很重要。用戶可以拍攝照片,獲得初步診斷。斯坦福大學的研究人員開發了可以發現皮膚癌的演算法。根據結果,其診斷皮膚癌的效率與專業醫生相當。該演算法並未投入生產,仍有商業機會。我們也期待醫療保健app的出現,特別是x射線診斷和超聲診斷,以及可以通過圖片診斷糖尿病患者不能吃哪些食物。微軟、谷歌、亞馬遜提供的雲服務消除了開發人員將計算機視覺應用生產的障礙。
我自己的公司,PicsArt,提供自動標記和搜索服務,可以分類用戶提交的照片。用戶每月上傳超過2億張圖像到我們的伺服器,我們每天收集20億次用戶活動。這使我們能夠大量收集圖像編輯歷史,並將產品開發成具有用戶體驗個性化的智能編輯器。 例如,平台會向建議用戶與他們曾下載過照片類似的圖片,來幫助他們發現更多相關照片。
計算機視覺的一個分支是光學字元識別(OCR),可以理解圖像中的文本,並將識別的詞提取為機器編碼的文本流。 這適用於各種領域,包括視覺信用卡掃描和銀行支票存款。 ABBYY是市場上最準確的OCR引擎之一,並且具有開發更專業的文本和表單掃描器(例如,在醫療保健,銀行,零售服務等)的巨大潛力。
圖像識別領域還有一個重要的部分是圖形分割,應用程序不僅能定點陣圖片中的特定物體,還能識別該物體的界限。這對面孔識別、背景移除、製作貼紙都很有用。
圖像美化
圖像美化是另一個值得注意的領域,包括風格改變和圖像美化。這方面已經有了很多出色的應用。
此外,我們還可以期待一些新產品的出現,比如美妝品牌能通過App在人臉上實現化妝效果,或者用戶可以通過App看到他們接受整容手術後的效果。(FaceApp正在朝這個方向發展。)
圖像生成:更多創意應用
第三個區域是圖像生成,涉及使用腳本生成動畫視頻或草圖。 這可以應用於娛樂行業,當它從靜止圖像(例如哈利波特動畫圖片)創建電影,漫畫或視頻或從圖像切割以創建貼紙(超解析度功能,允許用戶放大小的物體,從照片中刪除而不失去其質量)。
還有Google的AutoDraw,一個自動繪圖機器人,分析用戶的塗鴉,並提出更多拋光的剪貼畫替代它們。
AR和VR技術將探索圖像生成 ,將真實對象與生成的圖像混合,以產生與現實世界的另一層交互,或顯示對現實世界對象的掌控,如給建築物上標記附加信息。
蘋果的ARKit
根據美國商業媒體Business Insider,今年人們會拍1.2萬億的數碼照片。隨著移動設備功能越來越強大,計算機視覺模型越來越小,這些豐富的產出正在給商業帶來巨大變化。對新老企業來說,迅速適應變化非常重要。機會是無限的,使用移動AI沒有天花板。
原文:https://www.forbes.com/sites/forbestechcouncil/2017/09/27/what-can-computer-vision-do-in-the-palm-of-your-hand/2/#1f2983a54ba5
【掃一掃或點擊閱讀原文搶購五折「早鳥票」】
※「解放程序員」MIT「創世紀」機器學習新系統,自動生成補丁修復Bug
※「3萬患者11萬圖像14類病理」NIH公開大規模胸部X光數據集
※智能終端圖像識別、美化、生成應用盤點
※盛開互動CEO曾祥永博士:智能交互未來一定是多模態融合
※深度線性神經網路也能做非線性計算,OpenAI使用進化策略新發現
TAG:新智元 |