當前位置:
首頁 > 文史 > 社會機器人何以可能?

社會機器人何以可能?

社會機器人何以可能?*

——朝向一種具身捲入的人工智慧設計

How are Social Robots Possible? Toward an Embodied Engagement Approachto Design of Artificial intelligence

《自然辯證法通訊》2018年第1期

「人工智慧哲學」專欄

(1. 紹興文理學院腦與社會心智實驗室,浙江紹興 312000;2. 雲南師範大學心理學系,雲南昆明 650500)

(1. Brain and Social Mind Laboratory,Shaoxing University, Shaoxing, Zheing, 312000;2. Departmentof Psychology, Yunnan Normal University, Kunming, Yunnan, 650500)

原發期刊:《自然辯證法通訊》2018年第1期「人工智慧哲學」專欄

摘 要:當前,AI已經在高級思維與問題解決上取得了長足的進步,但在設計與開發用於人機互動的社會機器人上仍然面臨諸多的難題。與各種社會機器人的互動中感知到它是一個可以提供某種互動的自主體究竟意味著什麼?我們用什麼標準來判斷當前的人機互動中包含「真正」的社會性?通過整合社會神經科學、動物行為學、發展心理學等多個學科領域內的研究證據,具身捲入的社會互動觀認為社會機器人的AI設計需要應對如下問題:(1)如何利用系統1直接知覺社會行為?(2)機器人的形態與生物學規律如何影響社會互動?(3)如何讓社會機器人與人類建構共同任務?這將為AI在設計社會機器人上反思圖靈測試的前提假設以及處理「4W/H」問題提供豐富啟示。

關鍵詞:社會機器人;人工智慧;人機互動;具身認知;捲入性;鏡像神經元

Abstract:Over the past decades,Artificial Intelligence (AI) advanced significantly within the realm ofabstract reasoning and problem solving. But the flourishing of AI didn』t expandto the realm of design and developing social robots. Cognitivist AI encountersmany formidable problems when applied to social cognition. What differs aninteractive agent from a physics object when subject percept environment? Whichconditions qualify human-robot interaction to be truly social interactive? By synthesizingevidences came from social neuroscience, ethology, developmental psychology,etc. Based on the approach of embodied engagement, we summarize three aspectsworth to be considered when design and developing social robots in the future.(1) How to use a low level, automatic system to accomplish the directperception of social behavior? (2) What morphology and biological law can beused in social robot to enhance experience of human-robot interaction? (3)Which pattern of interaction can build a joint task between human and robot?The inquiry and clarify of those questions may inspire further reflection ofTuring test and 4W/H problem faced by social robot and provide an alternativeview of AI design.

Keywords: Social Robots; ArtificialIntelligence; Human-Robot Interaction; Embodied Cognition; Engagement; MirrorNeuron

一、引言

從古希臘開始,人類就將理性作為自身獨特性的標誌,亞里士多德甚至認為人類不同於其他動物之處是人類的理性,並進一步主張思考是人類存在的終極目的。這種認識論立場影響了之後多個學科的發展。例如,古典經濟學則把「理性人」作為了學科的基礎假設,並試圖在該假設上解釋複雜的社會行為。心理學中認知主義將人類心理的源頭——大腦——描述為一個操作抽象符號和表徵並做出決策的推理機器,主導著個體的感受和行為。人類對抽象理性的強調在圖靈測試(Turingtest)這裡達到一個頂峰。該測試由阿蘭?圖靈(Alan Turing)於1950年提出,實驗方法大致是評審人員通過一個設備(計算機)向無法直接看見和接觸到的另一方提問,並通過收到的回答與之進行交談。對方可能是一個計算機程序,也可以是一個真正的人。在進行過交談之後,評審人員要判斷對方是計算機程序或真正的人。隨著計算機運算的越發快速,程序愈發巧妙,人工智慧(以下簡稱AI)在該測試中取得很大進展。在2014年,俄羅斯AI專家米爾維塞羅夫(V. Veselov)等開發的聊天程序尤金?古斯特曼(Eugene Goostman)假裝自己是一名13歲的男孩並成功的使得超過30%與之互動的評審認為「他」是一名真人,標誌著AI首次通過了圖靈測試。除了使用語言進行交談,在其他強調決策和推理任務中,AI同樣取得了非凡的成績。1997年,美國IBM公司製造的深藍在與人類國際象棋世界冠軍卡斯帕羅夫對弈時取得了勝利。2016-2017年,美國Google旗下DeepMind公司製造出的Alpha Go在象徵人類理智巔峰的圍棋比賽中相繼擊敗了人類的冠軍選手李世乭、柯潔。伴隨著AI領域的進步,亞馬遜、蘋果和微軟等科技公司相繼都推出了民用的智能助手。AI已經全面滲透至人類日常生活的各個角落。

遺憾的是,相對於AI在高級思維與問題解決上的蓬勃發展,以AI為「大腦」的實體的、社會性機器人設計現狀卻呈現出另一番尷尬景象。其中,讓機器參與人類生活中的各方各面一直是很多AI專家的夢想。隨著人機交互領域的高速發展,各種截然不同的「種類」的新型社會機器人被設計、開發出來甚至投入商業活動,上述問題變得尤為凸顯。這給我們如何來提煉並描繪各種不同類型的「社會互動」出了一個難題。例如,簡單的卡通舞蹈機器人Keepon[a1] (長得像黃色的小鴨),有著表達和社會指向能力的Leonardo(看上去像普通毛絨玩具),能夠做出表情的KASPAR(一種用於自閉症輔助治療的人偶)以及Ishiguro設計的高度模擬的類人少女機器人Kodomoroid。然而,AI在言語和棋類領域取得的巨大成就為何沒有突破性地應用於社會機器人領域?與各種社會機器人的互動中感知到它是一個可以提供某種互動的自主體(agent)究竟意味著什麼?我們用什麼標準來判斷當前的人機互動(human-robot interaction,HRI)中包含「真正」的社會性?下文中,我們將通過回顧當前社會神經科學、動物行為學、發展心理學等多個學科領域內有關生物自主體之間社會互動的行為、心理與神經機制,為AI中社會性機器人的設計與有效的人機交互提供啟發。

二、從「兩個腦」到具身捲入的社會互動

人類的交流能力是我們生存並徜徉在社會性世界之中,參與文化形成,推動社會發展的必要條件。傳統認知主義(cognitivist)的交流觀建立在符號、表徵化的語言與思維能力之上。在目前的大部分AI中,一般意義上的機器人系統由認知(計劃,決策)、感知(導航,感覺環境)、動作(運動性,操作能力)、交互(輸入,輸出)系統四個部分構成[1]。社會機器人的設計思路都基於認知主義的立場,即,在設計時使用了製造者(人類)對於刺激的表徵方限定了機器人對周圍環境的表徵方式。讓機器人將外部的刺激物與這些表徵進行匹配、聯結,並讓AI操弄這些表徵和符號來實現計算、推理、語義理解和決策。這其中AI所使用的符號、表徵因為是由設計者規定的,與該系統認知周圍環境的方式是割裂的,並且與自身的結構和活動能力沒有必然的聯繫。整個系統的執行都基於內部對抽象表徵和符號計算後的輸出[2]。為了讓該種機器人理解其他個體的行為,需要設計者將行為的意義強加於機器人身上,並讓機器人盡量準確的識別具有意義的信號並能夠在大量的相似知覺刺激中進行分辨。其工作模式大概是識別一個社會信號,然後根據規則計算出合適的反應。

的確,在生物系統進行社會活動時,也存在這類基於抽象符號、表徵推理的系統。例如,從上世紀70年代中後期開始受到廣泛關注的「心智理論」(theory of mind)或心智化(mentalizing)能力就強調個體在知覺他人的社會性行為時,使用了抽象的表徵基於規則對他人的行為進行了因果性的解釋。例如,在觀察到他人一天沒有進食,並準備打開冰箱。個體對於他人為何打開冰箱的會做以下推理:因為人不吃東西會餓,餓了需要進食,冰箱里通常放置食物,所以這個人要打開冰箱拿取食物。這種取向將生物個體當作一個樸素的科學家,在不斷的觀察中建構和修正自己的理論,並對周圍的社會性事件做出更為準確的解釋。與認知主義者製造的機器人一樣,在心智理論的框架下,生物體所使用的表徵和周圍的世界也是割裂開的,個體可以理解任何能通過因果、邏輯聯繫起來的行為。唯一的區別是計算過程是通過大腦或計算機完成。

然而,過去的十餘年中,一系列實驗研究提供的充分證據指向,社會理解、默契和成功的合作也高度依賴於非言語的身體交流。這意味著我們需要對他人以及與之動態、在線的同步性中去解碼動態社會行為的線索。簡單的節律性的對齊(rhythmic alignment)與運動同步性(motor synchronization)可以影響合作與群體實體性(group entitativity)(指一群人被知覺為結合在某個一致單位中的程度,例如,拔河過程中團隊發力的一致性)。社會心理學中的變色龍效應(chameleon effect)發現,非言語的自動化模仿會增進人際之間的友好感,促進依存的自我建構並支持合作目標的產生。總之,交流可以被視為人類互動與組織的「社會黏合劑」(socia lglue)。非言語的交流對於建立、維繫和監控社會互動是不可或缺的。這種社會互動也被稱之為「我們模型」(we-mode),它包括對高階心理現象的人際調節,例如自我建構、合作與群體實體性[3]。

這方面最具有持久影響力的證據是鏡像神經元(mirror neurons)的發現,它們不僅在猴子執行一個動作時被激活,例如猴子用力抓住目標物,而且當猴子被動觀察一個由其他個體執行的相似動作時也會被激活。鏡像神經元憑藉這種能力去匹配觀察到的和所執行的操作,同時去編碼「我的行動」和「你的行動」。鏡像神經元最初發現於猴子大腦腹側前運動皮層(PMC)的F5區和頂下小葉區(IPL)。現有大量研究指向人類大腦中存在著類似的鏡像神經元系統[4]。

綜上,大腦中存在兩個系統理解社會行為並指導互動。系統1是鏡像神經元系統所代表的一種較為原始的、自動化地理解他人的方式,更多地處理偵測與空間、身體信號相關的較為早期的社會信息,該系統可以視為社會偵測系統(social detection system)。系統2是心智理論所代表的心智化腦區,這一系統通過抽象的推理理解社會行為,主要參與對他人情緒、命題態度的評估。該系統可以視為一個社會評估系統(social evaluation system)。通常來說,實現社會互動需要如下步驟:首先,在互動中,我們通常內隱地區分人與物。人們的內在體驗、理智、動機或行動意圖在「常識心理學」(folk psychology)框架下得以描繪。物理對象的行為可以在「常識物理學」框架中使用物理力的影響而給予充分的解釋(至少在牛頓力學的範疇之內)。其次,上述分析決定了交流的現象僅僅可適用於兩個自主體之間的互動,而不適用於兩個物。為了實現在其環境中適應生存的目的,前兩者可以交換信息。再次,通過「心智化」或「鏡像化」的方式來理解、模擬、想像或建模他人的內在體驗,實現與他人的有效互動([3], p.2)。

當然,兩個系統相互配合,使得個體在社會認知中既高效又靈活地處理複雜的知覺信息。例如,其他靈長類雖然在信念推理(belief reasoning)的任務上無法與人類嬰兒相比,但不妨礙它們依然具有複雜的社會性行為[5]。嬰兒在能夠表徵信念以前就可以僅僅依靠對事件的描述預測動作[6]。然而,在當前的AI中對於系統2的設計與模擬仍然凌駕於系統1。

忽視系統1對AI的影響較早反映上世紀80年中後期著名的AI專家布魯克斯(Rodney Brooks)倡導的努韋勒(Nouvelle)AI進路。該進路強調認知能力是與生物體自身的知覺能力、解剖結構和運動方式密切聯繫的。即,認知能力取決於個體所存在的「周遭世界」(Umwelt)。個體能夠知覺到環境的哪些方面,能夠對這些被知覺的對象做出怎麼樣的反應。在AI領域,這種非認知主義的突顯系統在AI被稱為「捲入性」(engagement)。所謂的捲入性系統強調個體的認知是在與周圍互動過中自我組織、自我產生、自我發展起來的,而不是被第三者預先(pre-given)規定的。這些表徵僅僅服務於系統與環境之間的互動,而不以設計者(人類)能直接識別的形式出現。個體對環境的表徵並不獨立於身體存在某個特定的位置,而是廣泛分散於個體與環境互動中產生感受刺激的各個部分。因此,系統的知識源自於主觀的活動經驗,其行為模式受制於自己的軀體([2], p.443)。基於突顯觀設計出來的AI系統與具身認知的思路有部分重合,特別是其形成認知的方式與Gibson所提出的示能性(affordance)這一概念為極為相似。突顯系統通過讓機器人探索環境,形成自己行為與周圍世界的關係,實際上是從無意圖的嘗試行為階段逐漸使自己的感覺運動系統習得周圍環境的示能性的過程[7]。這一學習過程將知覺環境和執行動作緊密的聯繫到了一起。

這種聯繫也存在於鏡像神經元系統中。鏡像神經元的激活方式暗示了我們在自己執行動作和知覺他人做出的動作基於了同一套系統。而不是如過去認知主義者所認為的那種三明治結構,在大腦中有一個獨立於執行系統和知覺系統的計算模塊負責理解周圍的世界。鏡像神經元系統為無社會認知提供了一種無需思考的社會認知模式,並將交流中傳遞了大部分信息的姿態和身體語言帶回了社會認知領域當中([4], pp.760–761)。在這裡需要強調的是,鏡像神經元之所以用自身的動作表徵來理解他人並不是因為自身的運動表徵是一種預設的,固定的抽象表徵(這種觀點依然沒有跳出認知主義的解釋框架)。感覺運動經驗不僅僅是一個中介,而是構成了行為目標的組織結構(teleological organization)。個體的感覺運動經驗是在運動系統與周圍世界互動中逐漸穩固下來的,我們對於他人行為的理解取決於自身的運動範圍和特定動作對環境產生的後果。個體的認知能力與知覺和動作系統有著密切的關係。

三、具身捲入的社會互動觀對AI設計的啟示

一種具身捲入的社會互動觀認為,社會機器人的AI設計需要應對如下問題:(1)如何利用系統1直接知覺社會行為?(2)機器人的形態與生物規律如何影響社會互動?(3)如何讓社會機器人與人類建構共同任務?

1. 直接社會知覺

鏡像神經元理論區別於傳統認知主義者的核心之一是知覺動作通過「直接匹配機制」(direct matching)。個體將知覺到的信息與自身所持有的運動表徵進行了對比,無需其他計算系統的介入[8]。動作識別分為以下三個階段,並且值得注意的是該模型中大腦所使用的知覺信息一直停留在二維層面:第一階段大腦利用對特定角度的物體或者手部產生反應的特徵檢測器(shape detector)對動作的部分進行識別,之後隨著處理層級的提高,特徵的複雜程度增加,依賴於視角的程度降低。在這一階段中,大腦完成了對物體的形狀的加工並將手部的動作知覺為一系列在時間上連續的「快照」。在第二階段中,大腦利用物體和手部的相對位置信息對動作的軌跡進行了加工,並且利用物體的形狀獲得了與物體互動的示能性。第三階段,大腦隨著動作的進行整合了物體的示能性和手部與物體的相對位置,對於動作是否是目標是導向進行了進一步的判斷([4], p.758)。

直接匹配暗示了個體需要具有相應的運動經驗才能通過鏡像神經元系統去理解動作,即我們要具有合適的運動表徵去匹配他人的動作[9]。目前有研究顯示,對於同年齡的被試,掌握一類動作將增強對於該動作的理解,但是反覆觀察同一類動作並不能帶來相應執行能力的提高[10]。在另一個研究中,研究人員使用了14與16個月大已經具有豐富爬行經驗的嬰兒作為被試,在實驗中嬰兒需要觀察爬行或者行走的視頻,結果發現嬰兒自身的爬行的經驗多少對於觀察動作中的腦電反應能夠產生影響。並且對於兩個年齡段的被試,觀察爬行所產生的腦電反應均強於觀察行走[11]。這些研究顯示出個體的運動能力和知覺能力的關係非常緊密,並且知覺能力極為依賴個體相關動作的執行經驗。

對於社會機器人來說,AI設計還需要應對經驗對社會理解的塑造問題。在日常生活中,他人的行為經常被部分地掩蔽在我們視線之外。例如,看見有人打開車門入座後點火啟動,我們通常無法完整地看見整個動作序列及動作對象(拿鑰匙的手被方向盤擋住),但是這並不影響我們很好地理解並預測他人的行為意圖。已有研究顯示,在直接匹配過程中,個體的運動系統對不完整知覺信息進行了補全。觀察者的運動系統能夠依靠部分視覺線索在運動系統中構建出完整動作。在Valchev等的實驗中,研究人員讓被試觀察對方執行一個舉起盒子的動作,盒子有三種重量(輕、中等、重)。但是動作執行者從手腕到手掌的動作都被遮住了,即動作執行者的第一指背側骨間肌(first dorsal interosseous, FDI)與小指外展肌(abductor digitiminimi, ADM)都無法在實驗中被觀察到。被試需要僅僅通過手臂上的肱橈肌(brachioradialis, BR)來判斷被試舉起物體的重量。研究發現,被試能夠僅僅通過觀察手臂來判斷被試舉起物體的重量,並且被試自己與舉起盒子有關的肌肉(包括無法直接觀察到的第一指背側骨間肌)的激活在觀察中的激活程度與重量呈正相關[12]。即被試自己的運動系統補全了被遮擋的這部分動作信息,從而以一個完整的方式理解了對方舉起物體這一動作。

按照傳統認知主義者的假設,對於動作意圖的理解是由單獨的抽象表徵計算後實現,在進行社會認知過程中都必須考慮動作本身和情境兩個方面。但是,上述證據證明直接匹配使得動作與意圖之間的關係變得緊縮(deflationary)。動作的執行並沒有獨立於情境,在某一情境中執行動作的意圖會直接影響動作執行過程中的運動學信息[13]。即,某一意圖與某一動作的對應關係遠比過去設想的緊密。例如,研究人員要求被試傾倒、置換、投擲或傳遞一個瓶子。在研究中測到的運動學信息顯示出當瓶子以傾倒的意圖被抓起時,中指和無名指會比以其他三種意圖執行抓起瓶子的動作時伸得更長[14]。在另外一些研究當中,研究人員發現具有交流性意圖的動作相對於個體獨自執行時也呈現出不一樣的信息[15]。這些在執行中運動學信息出現的微小差異被生物系統充分地捕捉了,並用以理解他人的行為[16]。並且這種敏感性甚至可以基於非常有限的知覺信息。在點光源技術(point-light technique)實驗中,運動的演示被簡化成三個移動的光點,分別對應於主體手的腕部、食指和拇指上的標記位置,被試在這種情況下仍然可以區分出社會性的動作和獨自執行的運動[17]。在另一項研究中,該團隊進一步發現交流姿勢所傳遞出的信息可以促進對第二個主體(動作對象)的視覺偵測,並影響對其生物運動信息的加工。這意味著,當處於兩個主體之間存在社會互動的情境中,其中的運動學信息不僅可用於預測個體接下去該做什麼,還有助於預測另一方接下來的動作[18]。

在知覺社會行為時要求以較少的認知資源較快的速度判斷他人的動作。以上研究顯示,動作中蘊含著充分的信息。但是動作中被記錄到的這些變數依然沒有使用在機器人的知覺系統中。直接知覺強調無需使用中介表徵來處理知覺信息,嘗試如何讓機器人直接從各類感知覺信息中抽取出不變(invariant)的信息用以指導社會互動。這種社會知覺形式可能是未來製造社會機器人亟待關注的。

2. 機器人的身體形態與生物規律

除了具備快速、準確識別社會認知信號,社會機器人的另一個重要方面是讓自己的行為容易被人類識別。的在電影星球大戰中,有兩個同樣有趣,但外形差異很大的機器人,一個是類似垃圾桶的R2D2,另一個是似人(anthropomorphic)的C3PO。哪一種機器人更適合用以作為社會機器人呢?為了使人類能夠更為舒適、自然的與機器人互動,社會機器人的外表和行為方式應該能讓個體使用自動化、快速的方式被知覺,而不是讓個體智能系統互動時,不斷的向智能系統妥協,遷就AI的行為模式。在知覺大部分機器人時,如果個體個體需要去有意識地去思考什麼樣的程序影響著機器人的行為,這違背了社會機器人的設計初衷。有研究顯示,人類在通過鏡像神經元系統知覺其他社會個體的行為時,明顯存在自下而上以知覺驅動加工的方式[19]。即外表與人類越相似的機器人越容易對其行為進行社會歸因。因此,一個理想的社會機器人應該是似人的,因為通過鏡像神經元系統理解其他個體的行為是基於個體自身的運動表徵,當我們在觀察形態上(morphological)與我們沒有可類比性的對象時,將出現模仿行為中的對應難題(correspondence problem)(例如犬吠相比於猴子咂嘴難以激活人類的鏡像神經元系統)([9], pp. 124-126)。

除了物理的外表,另一個問題是怎樣的行為方式是容易被理解的。目前有證據顯示當人類觀察到機械手臂完成一個目標導向動作的時候個體腦中鏡像神經元系統也能夠產生激活[20]。在另一個研究中,研究人員讓被試觀察真人或似人機器人以運動學信息(kinematics)(依然是可以被真人執行的)的,以及生物體無法實現的方式抓物體動作,並在之後自己執行一個類似的動作。為了使機器人的抓握符合生物學規則,研究人員分別記錄了人類以順暢、連貫(黑色實線)和脫節、機械的(淺灰色實線)方式伸出手的運動學信息,如圖1所示。並且,將這種生物可能的動作的執行方式讓機器人執行(與淺灰色實線類似)。為了使得機器人的伸手動作不符合生物學規律(biological law),研究人員讓伸出手的初期瞬間加速,然後保持在最大速度至少1秒鐘,再伴隨一個較快的減速(深灰色虛線)。研究發現無論被觀察對象是否是真人,只要其動作符合生物學規律,就能夠以影響被試之後執行動作的方式[21]。因此,社會機器人的行為方式應該基於從人類身上搜集到的運動學信息進行設計,這樣能最大程度讓人與之互動時使用具身式的認知方式。

圖1 當演示者執行手部動作時的運動軌跡與速度變化

另外值得注意的是,雖然似人性的提高會帶來互動體驗的提高,但是恐怖谷(uncanny valley)理論認為隨著人造對象越來越接近人自身,人類對於虛擬對象或機器人的接受程度會在一定的似人程度之後產生反轉,使人對虛擬對象和機器人產生消極的態度[22]。這主要是由於互動是一個動態過程,恐怖谷所描述的這一反轉的主要是因為機器人無法在互動中產生恰當的反應。例如,在人與人之間的互動中通常一方通常會無意識的模仿對方。有研究者指出,這種恐怖谷現象不僅存在於人和虛擬對象互動時,在面對某些因疾病(Moebius綜合征)或整容手術(注射肉毒桿菌)使得面部表情異常的人類個體時同樣會出現。一個一個栩栩如生的對象對我們的行為毫無反應會顯得這個「他」是一個精神異常的個體,在設計和研發時的一個有效的手段是讓機器人在交流時做一些細微的動作能減少恐怖谷的出現[23]。

人類形態對於社會互動的意義還必須考慮到生物演化的微妙因素。這可以從「合作眼睛假說」(The cooperative eyehypothesis)中得到極好的闡述。人類的眼睛具有一種獨特的形態學意義。與其他靈長類動物不同,人類的眼睛在褪色的、白色的鞏膜、暗色的虹膜與黑色的瞳仁之間存在著鮮明的色彩對比。這歸因於鞏膜缺少色素。其他靈長類會有棕色或深色的鞏膜。人類的皮膚、鞏膜與虹膜之間也存在高對比度。人類的眼睛在身體的比例中佔據更大的位置,而且水平維度上更長。在所有靈長類中,人類是唯一可以清晰地看到眼睛的輪廓和虹膜位置的物種。這種對比促進了偵測其他個體注視方向能力的發展。進化生物學與比較心理學家托馬塞洛(M. Tomasello[徐竹2] )等的研究檢驗了頭部和眼睛運動對於改變人類和大猿視線方向的影響。人類實驗主試分別做出如下四種動作,並讓人類嬰兒、大猩猩、黑猩猩、倭黑猩猩觀察這些動作:(1)實驗人員閉上眼睛並傾斜頭部;(2)眼睛注視天花板同時保持頭部靜止;(3)用頭部和眼睛注視天花板;(4)直視前方保持頭部和眼睛不動。實驗結果發現,所有大猿都只會在實驗人員頭部移動的情況下追尋其眼神,而人類嬰兒更多得會在實驗者眼睛運動時追尋其眼神[24]。這個結果顯示當人類試圖追尋他人的眼神時更多依靠的是他人眼睛的運動而不是頭部的運動。從人類學意義上來看,人類嬰兒推測出了他人交流與合作的意圖,同時也展示他們自己合作的意圖。

進一步的研究發現,這種眼睛形態學的構造還與動物的社會性等級有關。如果一個物種在眼睛形態學缺少上述構成,那麼它也就無法追尋其他物種的眼神,這對於群體的社會交流與合作是極其不利的。例如,現有的動物形態學研究發現,一些犬科動物的虹膜顏色比瞳孔淺得多。包括灰狼(Canis lupus)、郊狼(Canis latrans)以及亞洲胡狼(Canis aureus)。這些是群居的並且具有共同捕獵的行為。另一些犬科動物的虹膜顏色較深,瞳孔不可見。包括鬃狼(Chrysocyon brachyurus)、澳洲野犬(Canis lupus dingo)以及敏狐(Vulpes macrotis)等。它們更傾向於獨居或是成對生活,並且獨自捕獵[25]。

基於「合作眼睛假說」,一些研究者開展了一系列的實驗確認了機器人眼睛的良好設計特徵,這種設計會讓機器人具有令人愉悅的外表以及更好的人與進行眼神交流的能力。他們藉助一對背投的眼睛來操縱眼睛形態(從平坦到圓形)與虹膜尺寸(從小到達),設計出9種基於上述特徵整合的機器人眼睛,隨後評估人們對這些眼睛友善性的印象。結果發現,人們傾向於將圓的眼睛形態和更大的虹膜視為更友善的。這個設計還比較了人們在觀察機器人眼睛時能夠確認其注視目標的容易程度,發現具有大的虹膜的圓眼可以產生最清晰的眼神。研究還發現,在機器人將視線動態地轉移到注視目標的情況下較之靜態地注視目標,人們更有可能精確地判斷出前者的注視方向[26]。因此,如何將人類對於眼睛社會性的最佳評估安裝在可移動的機器人身上對於流暢的人機互動來說至關重要。

3. 人機交互建構共同任務

進化提供給了我們一種針對社會互動的解決方案:向他人的行為學習並適應它是我們操縱社會生活並在社會群體中生存的不可或缺的先決條件。研究者假設創造、加工並藉助人與同一物種(conspecifics)的其他個體分享社會信息的獨特能力構成了一種卓越的進化優勢。這種優勢使得我們可以與他人交流,並參與到複雜的合作形式之中。這就是著名的「文化智力假說」(cultural intelligence hypothesis),即我們的社會認知能力不同於一般的認知能力,它為人類提供了進化的優勢。相比非人靈長類,人類的幼兒在2.5歲時就顯示出在社會學習、交流和心智理論任務上的優越性,而在涉及空間、質量和因果性等物理認知能力上這種物種之間的差異就要小的多。這種獨特的能力有助於我們操控社會性的世界,來調整社會示能性並適應、協調他人的意圖、感受和行動,甚至可以大大地推動普遍意義上包含人類物種內部科學、技術、藝術與哲學等文化的演化與發展([3], p. 2)。

社會互動的動態屬性為社會機器人的設計與製造帶來了巨大的困難。認知主義者所設計的AI能夠在定義明確,刺激類型較為有限的任務中取得很好的表現。因為在社會互動中機器人的動作有時會被打斷,並且會需要在多個互動對象之間切換。為了製造一個社會機器人,該機器人需要在社會學習、模仿、手勢和語言交流手段、對其他個體的識別互動等多個方面取得成功。實現這些互動的一個重要前提是共同注意(joint attention)[27]。共同注意的意義在於,一旦某人追隨另一個人的眼神,就可以將視覺注意轉移到一個的新焦點,它可以是環境中的一個對象,或者與另一個人的相互注視。從嬰兒早期開始,眼睛就是視覺注意的原始的且最一致的指標。儘管其他工具的發展也可以幫助我們操控社會性世界(例如,語言),但眼神仍然是一個關鍵的線索系統,它可以幫助我們理解他人,並實現一系列涉及信息檢索、傳遞人際態度,以及在協調同步性的對話與人際距離等社會認知功能。

AI互動和人類互動時共同注意的建構模式受到情境的影響。一個實驗使用了互動式眼部追蹤範式(interactive eye-trackingparadigm),被試甲坐在電腦前,注視屏幕左側或右側的方塊,然後被注視的方塊從灰色變為藍色。被試甲還被告知他們的注視行為可以被另一位被試乙看見,被試乙可能注視被試剛才注視的那個方塊或注視另一側的方塊。被試甲的任務就是根據對方的一系列反應判斷被試乙是一個真實的人類還是計算機的演算法。在實際實驗中,被試乙的反應均是由計算機做出的,並且對於每一位被試甲,都將隨機互動7種不同的反應模式(包含總是注視被試甲的選擇同一側,逐漸變為總是注視被試甲選擇的另一側),從而測試對方反應在不同一致性和相依性的條件下會對被試甲的判斷做出什麼影響。結果顯示,在沒有限定情境的條件下被試的判斷取決於對方的注視在多大程度上與自己一致(congruence),也就是計算機給出的共同注意越多,被試就更可能認為對方是人類;在被試甲認為對方是配合的條件下,判斷則取決於對方的注視與自己的相倚性(contingency),也就是被試甲認為對方的反應不一定要總是與自己同向,也可能總是與自己反向;而當被試甲認為對方在故意為難自己的條件下,這時被試甲的判斷既不取決於一致性也不取決於相依性[28]。在AI與人互動中,雙方在不同任務中構建共同注意的模式並不相同,社會機器人的功能應該與其行為模式具有一致性,並符合情境,否則可能會讓與之互動的人類困惑。

在互動中的第二個問題是機器人在一對多或多對多的互動中如何識別哪一個對象正在與自己互動。或者在與AI互動時,如何讓被試認為該對象是具有可以進行互動的。腦成像研究顯示,個體對於他人是否能與之互動的預期會進一步影響對他人行為的理解[29]。這將影響人類能夠在知覺信息非常不完整的條件下完成該任務。一個研究探究了在可以互動的情境中,當感知覺經驗被最大程度的簡化後,被試是否能從三種對象中(固定的物體,移動的物體與另一個人)識別出哪一個是與自己相似的「人」。在實驗中,被試蒙住雙眼坐在一台運行著實驗程序的電腦前用右手操縱滑鼠,在電腦中被試通過左右移動滑鼠讓代表自己的一個長方形在一條橫線上左右移動,在移動過程中可能會遇到三種對象:一個在橫線的固定位置存在的長方形;另一個被試控制的長方形,在實驗中也被稱為化身(avatar);以及一個總是與化身相隔固定距離的長方形,即這個長方形的運動方式和化身是一致的,它也被稱為移動混淆物(mobile lure)。每當被試操控的長方形與其他長方形有重合的時候(部分或全部),被試左手的接收器上開始出現觸覺信號。但是如果化身沒有運動,即被試依次探索到了三個對象,被試所接收到的信號都是同樣的,信號只有「有」或「無」兩種狀態。但是被試還是能用一些線索區分遇到了移動的對象,例如自己沒有移動,但突然觸覺信號開始了;遇到對象的位置變化了;或者被試經過一個對象時觸覺信號持續時間延長(兩個化身同向運動)或縮短(兩個化身逆向運動)了。實驗的要求就是被試在15分鐘的實驗時間內當遇到化身的時候點擊滑鼠。研究發現被試的確能夠區分移動的物體和固定的物體,並且無論是相遇的次數或是相遇後點擊滑鼠的概率,遇到化身時都大大高於遇到移動混淆物。研究人員認為這是因為當兩個化身相遇時,他們各自接收到了信號,他們分開後再次移動回來相互探索,這時他們再次相遇。這形成了一種穩定的動態吸引子(stable dynamic attractor),與生活中相互注視的情況類似。而當被試遇到移動混淆物時,雖然被試自己接收到了信號,但對方並不知情,因此雙方並沒有進一步的探索行為[30]。

因此,在真實的互動中,個體在知覺對方時,對方並不是一個完全客觀的存在。個體試圖在互動中實現的結果,接收到的信息都在影響著個體知覺環境中的哪一部分,並對這些信息做出怎樣的解讀。在互動期間,機器人需要不斷的更新這表徵和符號的狀態使之與當前的客觀世界和任務要求一致,完成自己的部分並讓對方完成他人的部分。

四、總結與展望

鑒於大部分的社會機器人仍然沿襲基於認知主義框架的AI設計,其執行的計算,視覺加工、符號推理、計劃任務、構建心智理論、反饋、學習等,都帶有被指定的烙印。這種設計或許更加適合用於模擬人類社會認知的系統2,而忽視系統1必然導致機器人的設計難以應對社會互動。舉例而言,當我們看到一些社會情景,比如一位顧客拉著另外一位快要摔倒的顧客的胳臂時,機器人是如何理解這個社會互動行為?這兩個顧客各自的行為極為不同,機器人如何來同時理解這兩種不同的肢體動作?它又如何區分這個動作是親社會性的(如扶起摔倒的顧客)而不是反社會性的(兩個顧客發生了爭執)?再舉一個例子,當機器人看到一對情侶推搡以及他們面部表情的時候,我們是如何理解以下四種微妙的行為意圖:撒嬌玩耍(兩個人都在笑),真正吵架(兩個人都在生氣),一方欺凌另一方(推搡的人在笑,被推搡的人生氣),一方挑釁而另一方被激怒(推搡的人在生氣,被推搡的人在笑)。理解這些複雜的群體行為涉及到對於兩個個體動作(或面部表情)的宏觀解讀:僅僅明白單一個體動作(比如拉手臂、摔倒、哭、笑)不足以讓機器人完全理解整個社會互動的意義,更無法兌現參與社會互動的目標。

進一步的,如果機器人不僅是作為一個旁觀者,而是作為參與者與人類進行社會互動,那麼還將應對「4W/H」問題[31]。

(1)此次互動目標是什麼(What):這裡既要包含短期的目標和長期的意圖,如果從僅僅有行為的人類對象中獲得信息。AI要能快速、準確的識別他人行為的意義。

(2)誰應該現在執行(Who):大部分互動是一個輪流、交替的過程。AI需要及時的更新信息,理解當前的目標。

(3)何時該執行動作(When):互動是一個雙方構建的共同任務。一方需要判斷另一方的動作速率。機器人在執行時要將信號傳遞給對方,也要接受人類給予的信號,才能實現互動。

(4)在哪裡執行該動作(Where):互動中空間是開放的,如何判斷動作的發生區域,在合適位置開始執行。

(5)如何執行該動作(How):實現一個目標或意圖存在多種方式,AI如何選擇合適的動作方式來實現所期待的功能。

以上五點相互交織,將社會互動變成了一個複雜系統。使用傳統認知主義的編程策略,解決這些方問題不僅任務量驚人,並且面臨在遇到新異任務時不具有推廣性。以社會互動中常見的模仿行為來說,機器人需要判斷是否應該模仿,何時模仿。在面對環境中的多個對象,且實時變化的知覺刺激時需要判斷模仿對方的哪些部分,如何解決對應問題,如何判斷自己的模仿是否成功。

具身捲入觀或許可以為社會機器人的AI設計提供了一種新的思路。這恰恰是1950年圖靈在其文中所忽視的:「新問題(機器思維)具有的優勢是在人類的身體與智力之間刻畫出一條相當銳利的分界線。沒有工程師或化學家會主張可以製造出與無法區別於人類皮膚的材料。或許在某一時間點上有可能做到這一點,但即便假設這種發明可以應用,我們還是覺得給機器打扮成人工的肉身對於試圖製造『機器思維』而言幾乎是毫無意義的。我們設定問題的形式反映了這樣一個事實,即阻止提問者看見或觸摸到其他對手,或者聽到他們的聲音。」[32]

然而,這裡暗含了一個巨大的不確定假設。近二十年來,學術界對於離身的計算心智模型來解釋人類智力正變得悲觀,大量證據指向我們的思維和體驗是由我們實在的具身性和活的情境所塑造的。雖然,「圖靈或許是對的,過分關注人類肉身和血液的確會導致我們理解智力時出現偏差,從而在某種程度上使得AI不僅要聰明執行地行動而且還要在更為廣泛的生物學意義上模擬人類,這些都為AI平添了不必要的設計負荷。不過,上述想法並不能阻止我們質疑身體僅僅是一種『打扮』,質疑我們與世界隔離開來的那層膜(皮膚)並沒有刻畫出多少具有深刻的東西。換言之,自主體和智力的許多維度紮根於我們的肉身和血液具身化,以及捲入到世界和可感知他人的情感-感覺運動之中,並由此反映出來。因此,我們的社會性本質,以及某種程度上我們獨特的心智屬性,恰恰是從不同的可感知的自主體的互動中湧現出來的。」([2], p. 8)

基金項目:國家社會科學基金項目「現象學與神經科學對話中他心問題的重構及其超越研究」(項目編號:16CZX015)

參考文獻

[1] Breazeal, C. L. Designing Sociable Robots[M]. Cambridge, MA: MIT press, 2002, 24.

[2] Brincker M. 『Dynamics of PerceptibleAgency: The Case of Social Robots』[J]. Mindsand Machines, 2016, 26(4): 441–466.

[3] Vogeley K. 『Two Social Brains:Neural Mechanisms of Intersubjectivity』[J]. Philosophical Transactions of the Royal Society B: Biological Sciences,2017, 372(1727), doi: 10.1098/rstb.2016.0245.

[4]Rizzolatti, G, Sinigaglia, C. 『The MirrorMechanism: A Basic Principle of Brain Function』[J]. Nature Reviews Neuroscience, 2016, 17(12): 757–765.

[5]Call, J, Tomasello, M. 『What Chimpanzees Know aboutSeeing Revisited: An Explanation of the Third Kind』[A] In Eilan, N., Hoerl, C., McCormack,T., & Roessler, J. (Eds.), JointAttention: Communication and Other Minds[C]. Oxford: Oxford UniversityPress, 2005: 45–64.

[6]Csibra, G, Gergely, G. 『「Obsessed with Goals」:Functions And Mechanisms of Teleological Interpretation of Actions in Humans』[J].Acta Psychologica, 2007, 124(1): 60–78.

[7] Horton, T. E, Chakraborty, A, Amant, R.S. 『Affordances for Robots: A Brief Survey』[J]. Avant: Journal of Philosophical-Interdisciplinary Vanguard, 2012,3: 70–84.

[8] Rizzolatti, G, Craighero, L. 『The Mirror-Neuron System』[J]. Annual Review of Neuroscience, 2004, 27:169–192.

[9]Buccino, G, Lui F, Canessa, N, Patteri, I, Lagravinese, G, Benuzzi, F, Rizzolatti, G. 『Neural Circuits Involved in the Recognition ofActions Performed by Nonconspecifics: An fMRI Study』. Journal of Cognitive Neuroscience, 2004, 16: 114–126.

[16]Sommerville, J. A, Woodward, A. L, Needham,A. 『Action Experience Alters 3-Month-Old Infants』 Perception of Others』 Actions』[J].Cognition, 2005, 96(1): B1–B11.

[11]Van, E. M, van Schie, H. T, Hunnius, S,Vesper, C, Bekkering, H. 『You』Ll NeverCrawl Alone: Neurophysiological Evidence for Experience-Dependent MotorResonance in Infancy』[J]. NeuroImage,2008, 43(4): 808–814.

[12] Valchev, N, Zijdewind, I, Keysers, C, Gazzola, V, Avenanti, A, Maurits, N. M. 『Weight Dependent Modulation ofMotor Resonance Induced by Weight Estimation During Observation of PartiallyOccluded Lifting Actions』[J]. Neuropsychologia,2015, 66: 237–245.

[13] Ansuini, C, Cavallo, A, Bertone, C, Becchio, C. 『Intentions in theBrain: The Unveiling of Mister Hyde』[J]. Neuroscientist,2015, 21(2), 126–135.

[14] Sartori, L, Becchio, C, Bara, B.G, Castiello, U. 『Does the Intention to Communicate Affect Action Kinematics?』[J].Consciousness and Cognition, 2009, 18(3):766–772.

[15] Ansuini, C, Giosa, L, Turella, L,Altoè, G, Castiello, U. 『An Object for an Action, The Same Object for OtherActions: Effects on Hand Shaping』[J]. ExperimentalBrain Research, 2008, 185(1): 111–119.

[16] Sartori, L, Becchio, C, Castiello, U. 『Cues to Intention: The Role ofMovement Information』[J]. Cognition,2011, 119(2): 242–252.

[17] Manera, V, Becchio, C, Cavallo, A, Sartori, L, Castiello, U. 『Cooperationor Competition? Discriminating between Social Intentions by ObservingPrehensile Movements』[J]. ExperimentalBrain Research, 2011, 211(3): 547–556.

[18] Manera V, Del Giudice M, Bara B G, Karl, V., & Cristina, B. 『TheSecond-Agent Effect: Communicative Gestures Increase the Likelihood ofPerceiving a Second Agent』[J]. PLoS One, 2011, 6(7): e22650.

[19] Chaminade, T, Cheng, G. 『Social CognitiveNeuroscience and Humanoid Robotics』[J].Journal of Physiology-Paris, 2009, 103(3): 286–295.

[20]Gazzola, V., Rizzolatti, G, Wicker, B,Keysers, C. 『The Anthropomorphic Brain: The Mirror Neuron System Responds to Humanand Robotic Actions』[J]. NeuroImage, 2007, 35(4): 1674–1684.

[21]Bisio, A, Sciutti, A,Nori, F, Metta, G, Fadiga, L, Sandini, G, Pozzo, T. 『Motor Contagion During Human-Human andHuman-Robot Interaction』[J]. PLoS One,2014, 9(8): e106172.

[22] MacDorman, K. F, Ishiguro, H. 『TheUncanny Advantage of Using Androids in Cognitive and Social Science Research』[J]. Interaction Studies, 2006, 7(3): 297–337.

[23] Tinwell, S. A. The Uncanny Valley in Games and Animation[M]. Boca Raton, LF: CrcPress, 2014, 2-5.

[24]Tomasello,M, Hare, B, Lehmann, H, Call, J. 『Reliance on Head Versus Eyes in the GazeFollowing of Great Apes and Human Infants: The Cooperative Eye Hypothesis』. Journal of Human Evolution, 2007, 52(3),314–320.

[25]Ueda,S, Kumagai, G, Otaki, Y, Yamaguchi, S, Kohshima, S. 『A Comparison of FacialColor Pattern and Gazing Behavior in Canid Species Suggests Gaze Communicationin Gray Wolves (Canis Lupus)』[J]. PLoSOne, 2014, 9(2): e98217.

[26] Onuki, T, Ishinoda, T, Tsuburaya, E,Miyata, Y, Kobayashi, Y, Kuno, Y. 『Designing Robot Eyes for Communicating Gaze』[J].Interaction Studies, 2013, 14(3):451–479.

[27] Baron-Cohen, S. Mindblindness: An Essay on Autism andTheory of Mind[M]. Cambridge, MA: MIT Press, 1995, 17.

[28] Pfeiffer, U. J,Timmermans, B, Bente, G, Vogeley, K, Schilbach, L. 『A Non-Verbal Turing Test:Differentiating Mind from Machine in Gaze-Based Social Interaction』. PLoS One, 2011, 6(11): e27591.

[29] Krach, S, Hegel, F, Wrede, B,Sagerer, G, Binkofski, F, Kircher, T. 『Can Machines Think? Interaction andPerspective Taking with Robots Investigated via fMRI』[J]. PLoS One, 2008, 3(7): e2597.

[30] Auvray, M, Lenay, C, Stewart, J. 『PerceptualInteractions in a Minimalist Virtual Environment』[J]. New Ideas in Psychology, 2009, 27(1): 32–47.

[31]Lemaignan, S, Warnier, M, Sisbot, E. A,Clodic, A, Alami, R. 『Artificial Cognition for Social Human-RobotInteraction: An Implementation』[J]. ArtificialIntelligence, 2017, 247: 45–69.

[32] Turing, A. 『Computing Machineryand Intelligence』[J]. Mind, 1950, 59(236), 433–460.


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 哲學園 的精彩文章:

帝國與革命的雙重變奏:保守的自由主義

TAG:哲學園 |