FAIR等提出IntPhys：你的智能系統的物理知識，比得上嬰兒嗎？

新聞 04-06

嬰兒和許多動物對物體的相互作用有直觀理解，並能逐步掌握物體恆常性、因果關係、重力、形狀不變性等直觀、非語言概念。受此啟發，Facebook AI Research 等機構聯合提出了一個評估框架和基準數據集 IntPhys，通過測試系統區分可能與不可能事件的能力，來診斷其對直觀物理的理解程度。該項目對於無監督學習和現實交互系統等應用有重要意義。

1. 引言

儘管機器視覺在許多任務（面部識別 [ 68]、目標識別 [ 33，26] 、目標分割 [ 52] 等）上取得了引人矚目的進展，但是人工系統對複雜場景的理解還遠遠達不到人類水平。場景理解不僅涉及目標分割和跨時間目標追蹤，還涉及目標之間的空間和時間關係表徵，並能夠預測它們在物理世界中的交互方式。

實驗證據表明，非常小的嬰兒和許多動物確實對物體的相互作用有直觀的理解，他們利用這種「直觀的物理學」來預測未來的物體狀態並規劃他們的行動 [ 4 ]。在 2 - 4 個月的時候，嬰兒就能夠從物體恆常性、實體性和時空連續性的角度分析視覺輸入 [ 29，65] 。在 6 個月的時候，他們理解了穩定、支持和因果關係的概念 [63，6，5] 。在 8 到 10 個月之間，他們掌握了重力、慣性和碰撞動量守恆的概念；10 至 12 個月之間，他們掌握了形狀不變性 [ 70 ]。這種隱性知識是直觀的和非語言的（相對於物理課中教授的形式化知識），並且遵循與早期語言習得平行的發展路徑。這兩種情況都發展快速、自發，而且沒有護理人員的明確培訓 [ 53 ]。

在生物體中，直觀物理是一種潛在的構造：它只能通過對特定任務（如計劃、解決問題）的影響來間接地觀察和衡量，或者在人類中，通過口頭描述和解釋來觀察和衡量。還可以通過測量對「魔術」的驚訝反應來揭示，即對物理上不可能發生的事件（例如物體不知從哪裡消失或出現、相互穿越或無視重力等）表示無法理解或好奇。直觀物理的潛在性質對視覺系統提出了兩個難題：評估挑戰和工程挑戰。

評估挑戰可以表述為：給定一個人工視覺系統，定義一個量化該系統對（直觀）物理了解程度的度量。可能的解決方案是通過真實世界的應用來測量直觀物理現象，比如視覺問答 ( VQA )、目標追蹤或行動規劃（見圖 1）。然而，這可能會遇到兩種風險： ( a ) 數據集偏差；( b ) 測量雜訊。第一個風險（又稱之為 Clever Hans 問題 [ 28 ]）是現實生活中的應用程序數據集經常存在的固有統計偏差，這使得有時只需最小程度的干預就可以獲得良好的性能，有時卻相反。第二種風險是系統的整體性能是其各部分性能的複雜函數；因此，如果一個 VQA 系統比另一個具有更好的性能，這可能不是因為它更好地理解物理，而是因為它有更好的語言模型。

我們提出了一個框架，稱之為「物理合理性測試」，它以無任務和無模型的方式直接評估系統的直觀物理能力。這一框架的靈感來源於對嬰兒和動物直觀物理的研究。它將物理推理過程重塑為一個簡單的是非分類問題：呈現簡單場景的視頻，並詢問所描繪的事件在物理上是否可能。技巧在於準備匹配的視頻集，其中物理背離在可能與不可能的電影幀之間引入最小差異。通過改變物理背離的性質，可以探索不同類型的推理（關於物體及其屬性的規律、關於物體移動和交互的規律等）。

考慮到我們的方法涉及到自然界中不能自發出現的事件，它應該作為一種診斷測試，而不是一種訓練物理推理系統的實用方法。然而，它的優點在於，它可以應用於已經在其他任務上訓練的各種系統。只要這些系統對計算給定場景的全局標量數的要求最小，我們就可以將其解釋為「合理性」得分。任何基於概率或重構誤差的系統都可以容易地得到這樣的分數。

工程挑戰可表述如下：構建一個系統，儘可能多地融入直觀的物理（至少像嬰兒一樣，作為初始階段）。我們已經放棄使用不可能事件的視頻來訓練這樣一個系統，理由是我們需要注重實用性。另一種使用帶有高級標註（物理實體、定律或關係等）的監督學習方法，也是不切實際的。首先，系統可以在不執行完整 3D 重建的情況下對場景具有良好的物理理解。第二，嬰兒無需輸入任何高級標籤就可以學習直觀物理。事實上，他們只經歷「積極」的物理事件（物理上可能的事件）。此外，嬰兒可以從他們的環境中獲得有用的反饋，因為他們在運動控制方面變得更有能力，儘管這種反饋只存在於可能發生的事件中。所以，解決該挑戰的一種方法是構建無監督或弱監督的系統，該系統使用嬰兒可獲得的相同類型的數據（即，大量的感官觀察數據、有限但信息豐富的環境反饋、僅包含積極事件的實例），來學習物理定律。

這裡，我們提出了一個直觀物理的基準 IntPhys，其目標是同時嘗試解決評估挑戰和工程挑戰。它由一個 python 介面遊戲引擎（UnrealEngine 4）構建的合成視頻組成，實現了逼真的物理效果和精確的控制。訓練集僅包括積極事件，即由固定不動的智能體從第一人稱角度觀看可能事件的視頻。這可能比嬰兒面臨的任務更困難，因為嬰兒可以探索和與環境互動。但是有趣的地方在於，通過這種簡化輸入可以獲得多大程度的直觀物理能力，這種輸入在現實世界中很容易通過攝像機大量收集。此外，這使得模型的比較更加容易，因為它們都使用相同的訓練數據。測試集是根據我們的評估框架構建的，也就是說，它要求系統輸出合理性得分，並根據其將可能視頻與不可能視頻區分的能力進行評估。該測試集還可以用作以其他方式（真實視頻、虛擬環境中的互動式訓練等）訓練的系統的獨立診斷評估 [58,27,10]。