當前位置:
首頁 > 科技 > Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

夏乙 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

——貓戴著什麼?

——帽子。

——天氣怎麼樣?

——下雨。

——披薩上面是什麼?

——蘑菇。

看圖回答這些問題,對我們人類來說再簡單不過了,但是要讓AI熟練掌握這項技能,還需要探索。

Facebook剛剛為這個領域的探索者們,開源了一個模塊化視覺問答框架:Pythia

事情還要從在弗吉尼亞理工大學和喬治亞理工大學主辦的視覺問答(Visual Question Ansering)比賽VQA Challenge說起。

比賽上,Facebook AI研究院(FAIR)隊伍,A-STAR拿下了冠軍。總成績72.41分,排名第一,在是否(上圖的Yes/No)、其他(Other)兩類問題上也排名第一,分別拿下了87.7和63.95分,就是數學(Number)成績差了點,51.51分,不及格,排在第六。

其他的參賽者,回答「是/否」都答得還算不錯,回答數字都不及格,而答案五花八門的其他問題,也在及格線上下徘徊。

奪冠的FAIR觀察發現,目前的視覺問答(VQA)模型,無外乎這樣幾個模塊:問題編碼、圖像特徵提取、答案空間分類。

於是,他們就想針對VQA領域,打造一個簡單的模塊化的模型研發平台,說不定還能順便用在看圖對話上。

建造平台的第一步,就是開源了A-STAR參賽所用模型的基礎框架:Pythia,目前版本號v0.1。

為Pythia打下基礎的,是2017年VQA Challenge冠軍,Peter Anderson等人提出的Bottom-UpandTop-DownAttention模型。

Bottom-Up,指的是這個模型以ResNet-101為基幹網路,用了Visual Genome數據集預訓練的Faster-RCNN,用自底向上的注意力機制來提取圖像特徵。

而Top-Down,指的是根據問題(當前任務)來計算圖像區域上的注意力分布。

在這個模型的基礎上,FAIR團隊做了一些調整。

比如說,將up-down模型里的雙曲正切激活函數換成權重標準化+ReLU,用Adamax來優化模型,增大學習率。又比如,把bottom-up模型里的目標檢測模型換成Detectron里的FPN,還對用到的數據集:Visual Genome、Visual Dialog等都做了數據擴增。

每一個模塊的優化,都帶來了模型性能的提升。

BTW,Facebook參賽隊伍和框架的名字都別有深意。

隊伍的名字——A-STAR,跟星星沒什麼關係,它是意思是能看、說話、行動、推理的智能體(Agents that See,Talk,Act, andReason)

框架名字Pythia,也就是希臘神話中的皮提亞,德爾菲阿波羅神廟中的女祭司。女祭司的一項重要工作嘛,就是回答問題。

如果你也想搭一個會看圖回答問題的模型,收好這份paper:

Pythia v0.1: the Winning Entry to the VQA Challenge 2018

*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh

https://arxiv.org/pdf/1807.09956.pdf

以及開源代碼:

https://github.com/facebookresearch/pythia

為它打下基礎的Bottom-Up and Top-Down Attention:

https://github.com/hengyuan-hu/bottom-up-attention-vqa


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

馬斯克發推:8月特斯拉Autopilot實現完全自動駕駛
華為秘密作戰計劃曝光,重注研發AI晶元挑戰英偉達,輪值董事長挂帥

TAG:量子位 |