Facebook用AI看圖識菜譜是怎麼實現的?| 矽谷洞察
研究內容是什麼:
根據人類的判斷,一種直接從食物圖像中生成菜譜的新方法,可以生成比基於檢索的方法更吸引人的菜譜。通過在大規模菜譜數據集上進行的評估,該方法提高了與以前的成分預測方法基線相比的性能。通過這項工作,我們旨在通過輸入食物圖像來提供準備一頓飯的途徑。(簡單說就是:你不再需要搜做什麼的菜譜如何,給 AI 一張食物圖片,它就能給你判斷食材和製作過程有哪些,然後生成菜譜)
工作原理:
從圖像生成菜譜需要同時了解構成菜譜的配料以及它們所經過的任何加工,例如切片或與其他配料混合。傳統上,圖像到菜譜的問題被表述為一個檢索任務,菜譜是根據嵌入空間中的圖像相似度評分從一個固定的數據集檢索出來的。這些系統的性能在很大程度上取決於數據集的大小和多樣性,以及所學的嵌入的質量。毫不奇怪,當靜態數據集中不存在用於圖像查詢的匹配菜譜時,這些系統就會失效。
克服檢索系統數據集約束的另一種方法是將圖像到菜譜的問題表示為條件生成問題。我們認為,與直接從圖像中獲取菜譜不同,生成菜譜的管道將受益於中間步驟:預測配料列表。然後根據圖像及其對應的配料列表將會生成指令序列,其中圖像和配料之間的相互作用可以提供關於後者是如何加工成最終菜肴的額外見解。
我們的圖像到菜譜的生成系統將食物圖像作為輸入,並輸出包含標題、配料和烹飪說明的配方。我們的方法首先對圖像編碼器和成分解碼器進行預訓練,它們利用從輸入圖像和成分共現中提取的視覺特徵來預測一組成分。
然後,我們訓練成分編碼器和指令解碼器,它們通過提取圖像的視覺特徵和預測的成分,並將它們輸入一個最先進的序列生成模型,從而生成標題和指令。
為什麼重要:
食品識別挑戰了當前的計算機視覺系統,使其不僅僅是可見的。與自然圖像理解相比,視覺成分預測需要高級推理和先驗知識(例如,羊角麵包可能含有黃油)。這帶來了額外的挑戰,因為食物成分具有很高的類內變異性,在烹飪過程中會發生嚴重的變形,而且成分經常在烹飪的菜肴中被掩蓋。我們的系統是邁向更廣泛的食品理解系統的第一步,如卡路里估算和菜譜創建。
此外,此類培訓可用於需要從圖像和預測關鍵字預測長結構化文本的任何問題。管道的第一部分(成分預測)可用於解決更廣泛的問題,如圖像到集合預測。
感興趣的可以點擊官方原文閱讀:
https://ai.facebook.com/blog/inverse-cooking/
更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)
※蘋果損失一大將,也挖來了ARM大神…
※我家離豬窩,只差一個機器人的距離
TAG:矽谷密探 |