Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它
夏乙 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
——貓戴著什麼?
——帽子。
——天氣怎麼樣?
——下雨。
——披薩上面是什麼?
——蘑菇。
看圖回答這些問題,對我們人類來說再簡單不過了,但是要讓AI熟練掌握這項技能,還需要探索。
Facebook剛剛為這個領域的探索者們,開源了一個模塊化視覺問答框架:Pythia。
事情還要從在弗吉尼亞理工大學和喬治亞理工大學主辦的視覺問答(Visual Question Ansering)比賽VQA Challenge說起。
比賽上,Facebook AI研究院(FAIR)隊伍,A-STAR拿下了冠軍。總成績72.41分,排名第一,在是否(上圖的Yes/No)、其他(Other)兩類問題上也排名第一,分別拿下了87.7和63.95分,就是數學(Number)成績差了點,51.51分,不及格,排在第六。
其他的參賽者,回答「是/否」都答得還算不錯,回答數字都不及格,而答案五花八門的其他問題,也在及格線上下徘徊。
奪冠的FAIR觀察發現,目前的視覺問答(VQA)模型,無外乎這樣幾個模塊:問題編碼、圖像特徵提取、答案空間分類。
於是,他們就想針對VQA領域,打造一個簡單的模塊化的模型研發平台,說不定還能順便用在看圖對話上。
建造平台的第一步,就是開源了A-STAR參賽所用模型的基礎框架:Pythia,目前版本號v0.1。
為Pythia打下基礎的,是2017年VQA Challenge冠軍,Peter Anderson等人提出的Bottom-UpandTop-DownAttention模型。
Bottom-Up,指的是這個模型以ResNet-101為基幹網路,用了Visual Genome數據集預訓練的Faster-RCNN,用自底向上的注意力機制來提取圖像特徵。
而Top-Down,指的是根據問題(當前任務)來計算圖像區域上的注意力分布。
在這個模型的基礎上,FAIR團隊做了一些調整。
比如說,將up-down模型里的雙曲正切激活函數換成權重標準化+ReLU,用Adamax來優化模型,增大學習率。又比如,把bottom-up模型里的目標檢測模型換成Detectron里的FPN,還對用到的數據集:Visual Genome、Visual Dialog等都做了數據擴增。
每一個模塊的優化,都帶來了模型性能的提升。
BTW,Facebook參賽隊伍和框架的名字都別有深意。
隊伍的名字——A-STAR,跟星星沒什麼關係,它是意思是能看、說話、行動、推理的智能體(Agents that See,Talk,Act, andReason)
框架名字Pythia,也就是希臘神話中的皮提亞,德爾菲阿波羅神廟中的女祭司。女祭司的一項重要工作嘛,就是回答問題。
如果你也想搭一個會看圖回答問題的模型,收好這份paper:
Pythia v0.1: the Winning Entry to the VQA Challenge 2018
*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh
https://arxiv.org/pdf/1807.09956.pdf
以及開源代碼:
https://github.com/facebookresearch/pythia
為它打下基礎的Bottom-Up and Top-Down Attention:
https://github.com/hengyuan-hu/bottom-up-attention-vqa
—完—
※馬斯克發推:8月特斯拉Autopilot實現完全自動駕駛
※華為秘密作戰計劃曝光,重注研發AI晶元挑戰英偉達,輪值董事長挂帥
TAG:量子位 |