Facebook開源視覺、語言多任務深度學習框架——Pythia

新聞 05-23

雷鋒網 AI 科技評論按：Facebook 人工智慧研究院最近推出 Pythia ——一個深度學習框架，支持視覺和語言領域的多任務處理。其模塊化的即插即用設計能夠幫助使用者快速構建、複製和基準人工智慧模型。

打開今日頭條，查看更多圖片

【圖片來源：GitHub所有者：Facebook 】

Pythia是什麼？

Pythia 是一個視覺和語言多模式研究的模塊化深度學習框架，它建立在PyTorch之上，具有以下特點：

Model Zoo：最先進的視覺和語言模型的參考實現，這些模型包括 LoRRA（SoQ on VQA 和 TextVQA）、Pythia模型（VQA 2018 挑戰獲勝者）和 BAN
多任務：支持多任務，允許同時訓練多個數據集
數據集：包括對內置的各種數據集的支持，如 VQA、VizWiz，TextVQA 、VisualDialog 等
模塊：為視覺和語言領域中的各種常用圖層提供實現方式
分散式：支持基於 DataParallel 和 DistributedDataParallel 的分散式訓練
Unopinionated：對基於它構建的數據集和模型實現不受任何影響的功能
定製化：包括自定義損失、指標、調度、優化器、張量板等

Pythia能做什麼？

即插即用的模塊化設計，能夠使研究人員快速構建、複製並基準 AI 模型。你可以使用 Pythia 為您的下一個視覺和語言多模式研究項目提供引導程序，也可以用作視覺和語言數據集挑戰賽的入門代碼庫（TextVQA 挑戰，VQA 挑戰）；還可以用它來回答與視覺數據相關的問題和自動生成圖像注釋。

Pythia加入了近期的AI比賽（VQA Challenge 2018和Vizwiz Challenge 2018）中獲獎作品的元素。功能包括通過參考實現來展示之前的模型如何完成相關基準測試結果，以及迅速評估新模型性能。除了多任務處理，Pythia還支持分散式訓練和各種數據集，以及自定義損失、指標、調度和優化器。

Pythia的意義？

Pythia使得進入視覺和語言子領域的過程變得更簡單，也使研究人員能夠專註於更快的原型設計和實驗。通過提高這些模型和結果的可重複性來加速研究進程，將使得社區更容易成功構建系統並進行基準測試。

通過消除這些障礙，研究人員能更快地為人們和智能機器開發新的交流方式。同時，這項工作還將幫助研究人員開發自適應人工智慧，使得多種理解更好融合到多情境的多模理解中。除了這個開源版本，Facebook還計劃繼續添加工具、任務、數據集和參考模型。

具體開源鏈接：

GitHub 地址
https://github.com/facebookresearch/pythia

Pythia 官方文檔
https://learnpythia.readthedocs.io/en/latest/

安裝教程
https://colab.research.google.com/drive/1Z9fsh10rFtgWe4uy8nvU4mQmqdokdIRR

雷鋒網AI 科技評論雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※自動駕駛汽車到底啥時候能普及？打賭輸了的人要吃掉一百萬輛特斯拉！
※BAT、科大訊飛、商湯等5大AI國家隊的一次「集體工作彙報」

TAG:雷鋒網 |