Facebook開源看圖問答模型Pythia：拿下VQA比賽冠軍就靠它

科技 07-29

夏乙發自凹非寺

量子位報道 | 公眾號 QbitAI

——貓戴著什麼？

——帽子。

——天氣怎麼樣？

——下雨。

——披薩上面是什麼？

——蘑菇。

看圖回答這些問題，對我們人類來說再簡單不過了，但是要讓AI熟練掌握這項技能，還需要探索。

Facebook剛剛為這個領域的探索者們，開源了一個模塊化視覺問答框架：Pythia。

事情還要從在弗吉尼亞理工大學和喬治亞理工大學主辦的視覺問答（Visual Question Ansering）比賽VQA Challenge說起。

比賽上，Facebook AI研究院（FAIR）隊伍，A-STAR拿下了冠軍。總成績72.41分，排名第一，在是否（上圖的Yes/No）、其他（Other）兩類問題上也排名第一，分別拿下了87.7和63.95分，就是數學（Number）成績差了點，51.51分，不及格，排在第六。

其他的參賽者，回答「是/否」都答得還算不錯，回答數字都不及格，而答案五花八門的其他問題，也在及格線上下徘徊。

奪冠的FAIR觀察發現，目前的視覺問答（VQA）模型，無外乎這樣幾個模塊：問題編碼、圖像特徵提取、答案空間分類。

於是，他們就想針對VQA領域，打造一個簡單的模塊化的模型研發平台，說不定還能順便用在看圖對話上。

建造平台的第一步，就是開源了A-STAR參賽所用模型的基礎框架：Pythia，目前版本號v0.1。

為Pythia打下基礎的，是2017年VQA Challenge冠軍，Peter Anderson等人提出的Bottom-UpandTop-DownAttention模型。

Bottom-Up，指的是這個模型以ResNet-101為基幹網路，用了Visual Genome數據集預訓練的Faster-RCNN，用自底向上的注意力機制來提取圖像特徵。

而Top-Down，指的是根據問題（當前任務）來計算圖像區域上的注意力分布。

在這個模型的基礎上，FAIR團隊做了一些調整。

比如說，將up-down模型里的雙曲正切激活函數換成權重標準化+ReLU，用Adamax來優化模型，增大學習率。又比如，把bottom-up模型里的目標檢測模型換成Detectron里的FPN，還對用到的數據集：Visual Genome、Visual Dialog等都做了數據擴增。

每一個模塊的優化，都帶來了模型性能的提升。

BTW，Facebook參賽隊伍和框架的名字都別有深意。

隊伍的名字——A-STAR，跟星星沒什麼關係，它是意思是能看、說話、行動、推理的智能體（Agents that See,Talk,Act, andReason）

框架名字Pythia，也就是希臘神話中的皮提亞，德爾菲阿波羅神廟中的女祭司。女祭司的一項重要工作嘛，就是回答問題。

如果你也想搭一個會看圖回答問題的模型，收好這份paper：

Pythia v0.1: the Winning Entry to the VQA Challenge 2018

*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh

https://arxiv.org/pdf/1807.09956.pdf

以及開源代碼：

https://github.com/facebookresearch/pythia

為它打下基礎的Bottom-Up and Top-Down Attention：

https://github.com/hengyuan-hu/bottom-up-attention-vqa

—完—

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章: