當前位置:
首頁 > 科技 > 人工智慧怎麼為自己設定目標?

人工智慧怎麼為自己設定目標?

智能系統不能決定自己的初始目標,但會根據經驗構建自己的派生目標,而其行為是被這些目標共同決定的。在這方面計算機和人類並無本質區別,所以人工智慧系統完全可以達到人類水平的自主性。我們應當對由此而來的機會和挑戰有所準備,而簡單地斷言「人工智慧歸根結底是實現設計者目標的工具(所以沒什麼新鮮的)」或「人工智慧的目標是我們完全無法影響的(所以必定毀滅人類)」都是錯的。


撰文


王培(美國天普大學計算機與信息科學系)

在那些認為人工智慧永遠不能達到人類水平的理由中,最常見的一個是「所有智能系統都是設計者實現自己目標的工具,而機器自身是不可能有任何目標的。只有人能為自己設定目標。」 我在這裡要指出這個斷言是錯誤的。


計算機系統中的目標


每個系統都有「做什麼」的問題,也有「怎樣做」的問題。前者是關於目標或任務,後者是關於方法或手段。在傳統計算系統中,二者都是人定的:每個程序都按人指定的方法實現人設定的目標。比如說你可以調用一個程序來找到一組數中的最大值,但計算機只是接受並實現了你給它的目標,而不是自己設置或選擇了這個目標。


當要達到的目標很大的時候(比如「成為首富」),一個自然的策略是將其分解成若干小些的目標。如果一個「小目標」仍嫌太大(比如「先掙一個億」),那就進一步分解,直到目標可以實現為止(比如「從床上爬起來」)。這個目標分解過程在人工智慧中叫「反向鏈接」(backward chaining,見參考資料[1])。在反向鏈接過程中生成的目標通常被稱為「子目標」。這些目標儘管是系統生成的,但不能說是系統為自己設定的,因為「子目標」是循給定的程序將外界設定的「總目標」分解而得,所以它們的存在價值和意義也完全是為該「總目標」的實現做貢獻。

即使是目前火爆的機器學習,也只是從大量數據中總結實現給定目標的方法,而目標本身不是學到的。前不久,AlphaGo的升級版以快棋60戰不敗的記錄橫掃圍棋界,儘管它從來也沒有「自己想要」下圍棋。在AlphaGo中大顯神通的「強化學習」技術是通過其每個決定所得到的「獎勵分數」來逐漸學會在各個情境下怎麼做得分最高的。這類系統中確定各個情境的獎勵分數的那個函數就隱含地確定了系統的目的,而這個函數不是系統自己設定的,是設計者編製在系統中的。


智能和自主性


AlphaGo算是有智能嗎?不同的人會有不同的評價(見《當你談論人工智慧時,到底在談論什麼?》),但我想不少人會和我一樣覺得真正的智能系統必須有自主性,即在「做什麼」和 「怎樣做」兩方面都能自己做主。在《計算機能有創造性嗎?》之中,我已經解釋了怎樣讓智能系統自己發現解決某些問題的辦法,而這裡要介紹怎樣讓它為自己設定目標。


我在《你這是什麼邏輯?》等專欄文章中已經介紹了我設計的「納思」系統的若干方面。因為納思必須在知識和資源相對不足的條件下工作,其中對目標的處理和傳統系統非常不同(詳見參考資料[2])。作為一個人造系統,納思的「初始目標」自然還是由外部設定的,但即使在這方面,它和傳統系統也有兩點顯著不同:


(1)實時性:初始目標既可以是由設計者植入系統的先天結構的(比如「造福人類」),也可以是用戶在系統運行時隨時輸入的(比如「給我杯茶」)。這些目標都有時間要求(比如「永遠」、「三年內」、「今天」、「馬上」、「儘快」),而且常常在系統仍忙於其它目標時出現。

(2)開放性:只要是目標以系統所能識別的方式表達即可,而對其內容並無限制。這就是說諸目標可以是直接或間接相互衝突的(比如一個用戶說「開門」而另一個說「關門」),或超出系統的現有知識範圍(比如「實現世界和平」)。


由於智能系統不是神仙,上述特徵的一個必然後果就是納思不能保證實現給它設定的所有目標。當然,它不總是簡單地說「我做不到」,而是儘可能最大限度地實現它們。一般情況下,系統不是一個接一個地實現其諸多目標,而是同時考慮它們。每個初始目標有個「優先度」,以便系統權衡輕重緩急,並在目標間有衝突時決定傾向哪方。


除去在非常簡單的情況下,一個智能系統中的絕大多數目標都是不能直接一步就實現的。不要說「造福人類」或「掙一個億」,就是「送杯茶」也需要分成若干步驟,各有其具體目標。納思能夠根據其知識通過推理生成「派生目標」。比如說如果它相信創辦一家人工智慧公司就能掙一個億,那麼它就有理由以「創辦一家人工智慧公司」作為一個新目標。這和前面提到的「反向鏈接」有相似之處,但有幾個根本差別。首先是要考慮對其它目標的影響。比如說它如果相信人工智慧的未來發展會威脅「實現世界和平」這個目標(這是個有反思精神的AI),那它就有理由不設立「創辦人工智慧公司」這個新目標,而通過其它途徑去掙一個億(比如炒房地產)。因此,在納思中一般不能把一個派生目標看成單一初始目標的子目標,因為它往往和很多初始目標有關,起碼沒有被它們所否決。其次,即使一個派生目標主要是作為實現某個初始目標的手段被創建的,但由於二者的關係是基於系統當時的知識,那很有可能被後來的經驗所推翻。比如說「創辦人工智慧公司」可能最終導致賠錢的結果,從而和「掙一個億」的期望相悖。我在《證實、證偽、證明、證據:何以為「證」?》中解釋過,智能系統對未來的預測是基於過去經驗之上的,因此永遠有出錯的可能性。這就意味著一個派生目標的實現可能實際上無助於使其建立的初始目標,甚至可能阻礙後者的實現,但這是系統在生成此目標時不知道或沒想到的。最後,一個派生目標建立後,它與其「本源」目標的聯繫會逐漸淡化,以至於在其本源消失(不論是被滿足還是被放棄)之後仍然可能存在。


綜上所述,納思的目標派生過程同時也開始了一個「手段目的化」的過程。如果初始目標A觸發了派生目標B的創立,這二者的關係僅僅是歷史性的,而不是永久性的。系統會把B作為一個獨立的目標來對待,而不是作為A的附庸。當然這裡會有一個量上的差別,即B的優先度開始時會低於A的優先度。如果B後來得到越來越多的其它(A以外的)支持,它可能逐步成長為一個對系統比A更重要的目標,這就是說在決定系統行為時,A未必永遠比B有更高的發言權。在納思中對這個派生鏈的長度是沒有限制的,所以如果B又觸發了C,C觸發了D,D和A的實際聯繫就可能非常遙遠了,儘管追根尋源是從那裡來的。由於派生目標不僅取決於初始目標,而且取決於系統的經驗,它們在不同程度上應當被看成系統為自己設定的目標,而一個派生目標離初始目標的「距離」越遠,它的「自主」程度就越高。在上面的例子中,A完全是「外來的」,而B、C、D則一個比一個更有資格被稱為系統「自己的」。有興趣的讀者可以通過我主頁上的鏈接下載一個納思的測試版來驗證這種現象。


(圖片來源:千圖網)

人工智慧怎麼為自己設定目標?



人的目標來自何處


有些人會反對我上面的結論,說既然所有派生目標歸根結底還是源於初始目標,那就不能算是系統自身構造的。那就讓我們看看人「自身的」目標是怎麼來的。

儘管不少人覺著人有「自由意志」,想幹啥就幹啥,但心理學家從不認為人的目標是任意的或隨機的,而是致力於發掘人類動機、驅力、需求、慾望、目標等的隱秘來源。在這個領域最廣為人知的學者包括弗洛伊德和馬斯洛。弗洛伊德認為人的心理活動的基本驅動力量是生物性的,如生存和繁殖,而其它動機無非是這些本能慾望的變形或替代。馬斯洛將人的需求劃分為五個層次(從低到高是生理、安全、社交、尊重、自我實現),而高層需求是在低層需求的基礎上發展出來的。根據這些理論,人的初始目標也不是自己確定的,而是來自於先天(遺傳因素)。我們能選擇的是它們的派生、導出形式,而這些選擇也必定是在我們的經歷和資源約束下的做出的,而非任意的。


心理學家奧爾波特提出了「機能自主」的概念(參考資料[3]),說的就是派生動機在機能上逐漸會擺脫和原始動機的關係而獲得自主,也就是實現從「手段」向「目的」轉化。這樣的例子數不勝數。一個小學生開始時的學習目的主要是獲得父母的獎勵,但她後來從求知過程中得到了樂趣,從而不再需要父母的獎勵。一個人工智慧公司的創辦人可能滿足於研發活動帶來的成就感,而不再想他本來辦公司的目的是要掙一個億。在最極端的情況下,一個派生目標甚至會反過來否定初始目標,比如為自由犧牲生命。這可以叫做目標的「異化」。


我這裡是把「異化」作為一個中性詞來用的,因為這個現象的後果可好可壞,不管是從個體和群體的角度看都是如此。一方面,把手段當作目的會妨礙原先目標的實現,起碼會分散系統的注意力;另一方面,如果沒有這種異化,那人類所有超出動物性的追求大概都不可能出現(比如說,藝術有什麼用?用畫岩畫的工夫去抓只兔子不是更實惠?)。無論如何,我認為這是真正的智能系統(不論是人還是計算機)中所必然產生的現象。由於知識和資源的不足,這樣的系統不可能保證目標派生關係的絕對有效性,也無法在決策過程中完整地考慮到這些關係。


智能系統的目標體系


那些本來就對人工智慧心懷警惕的讀者現在會想:如果目標異化不可避免,那人工智慧豈不就是必然失控並導致災難了嗎?我認為恰恰相反,正是上面描述的這種目標機制使通用人工智慧的良性使用成為可能。


(圖片源於網路)

人工智慧怎麼為自己設定目標?



和主流的人工智慧技術相比,納思在目標處理上的不同點可以總結為兩個關鍵詞:「制約」與「演化」。


由於主流人工智慧致力於「解決那些以前只有人腦能解決的問題」,大部分系統只接受一個初始目標,而其餘目標都是它的子目標。即使那些接受多個初始目標的系統一般也假設這些目標之間不衝突,且可以逐個實現。這種做法對專用系統來說是合適的,但完全不適應通用系統的要求。以AlphaGo為例,其設計就是以「贏棋」為唯一目標。如果這就是我們想要的,那這個技術就非常合適。如果我們希望這個系統同時實現其它目標,如「教人學圍棋」、「提高圍棋比賽的觀賞性」、「發現圍棋之道」、「給人類留點自尊」等等,那麼這個技術就不合適了。


為什麼不能把這些目標合成一個「總目標」呢?這在某種意義下是可能的,如納思就有一個關於目前諸目標的總體滿足程度的測量,可以說是一種簡單化的「幸福感」。但問題是系統的大部分知識都是關於如何實現各個具體的「小目標」的,而非直接關係到系統的「總目標」。比如我知道「推門」這個動作一般會實現「開門」這個目標,但不知道這個動作有多大可能性提升我的「幸福感」。因此,目標派生是必須的,而系統要考慮的是一個目標體系,而不是單個目標。就憑這一點,像「強化學習」之類的現有AI技術就不能被用作通用智能(AGI)的核心技術。


即使只談安全性,單一目標也有很大問題。在關於人工智慧危險的討論中廣泛流傳的例子包括「如果你要一個超級智能造麯別針,它可能把地球上的所有資源耗盡來干這個」,「如果你要一個超級智能實現世界和平,它會想把人類全滅了就和平了」。由此可見,即使「總目標」有益無害,其後果也可能是災難性的。這些例子不無道理,但問題是它們往往被用來論證「人工智慧是危險的」,儘管它們實際上展示的是追逐單一總目標的危險性。歷史已經反覆展示了不惜一切代價追求某目標所造成的災難,不管這個目標本身多麼有價值(比如「GDP」、「穩定」、「政治正確」等等)。克服這種危險性的辦法不是更精確地制定總目標,而是用一組相互制約的目標引導系統的行為。當我們說「我要這個」的時候,不意味著「我只要這個,別的什麼都不要」。


類似的,由於主流人工智慧研究著眼於具體應用,系統的目標一般應當保持不變。但像納思這樣的通用人工智慧研究是要搞清「智能」、「認知」、「思維」、「意識」等等到底是怎麼回事,因此會注重於系統的適應性、靈活性、創造性、自主性等特徵,這些都需要目標體系隨系統的經驗而演化。請注意這種演化不是任意或隨機變化。儘管納思在某一時刻的目標體系不能僅被先前的初始目標所決定,但仍被系統的初態(包括植入目標、本能反應等)和經驗(包括輸入目標、觀察數據等)所共同決定。它不會無緣無故就以「稱霸世界」為目標的。


正是這種目標體系的可塑性使得我們可以通過教育來保障智能系統的安全性。不論設計如何小心,我們也沒辦法完全預料一個通用智能系統在未來的全部行為,因為我們不能準確地知道它在未來會面對什麼樣的情況。對納思這樣的系統,我們應當通過教育和社會化來逐漸塑造其目標體系,而不是試圖在設計過程中解決所有問題。人也是一樣的:我們不能期望通過基因工程完全解決犯罪問題對這一點我在《人工智慧危險嗎?》中已有分析。


總而言之,智能系統不能決定自己的初始目標,但會根據經驗構建自己的派生目標,而其行為是被這些目標共同決定的。在這方面計算機和人類並無本質區別,所以人工智慧系統完全可以達到人類水平的自主性。我們應當對由此而來的機會和挑戰有所準備,而簡單地斷言「人工智慧歸根結底是實現設計者目標的工具(所以沒什麼新鮮的)」或「人工智慧的目標是我們完全無法影響的(所以必定毀滅人類)」都是錯的。


參考資料


[1] Stuart Russell and Peter Norvig, Artificial Intelligence: A Modern Approach, 3rd edition, Pearson, 2010


[2] Pei Wang, Motivation management in AGI systems, Proceedings of the Fifth Conference on Artificial General Intelligence,352-361, Oxford, UK, 2012


[3] Gordon W. Allport, The functional autonomy of motives. American Journal of Psychology, 50:141–156, 1937.

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 賽先生 的精彩文章:

郭光燦:中國量子計算機發展明顯落後美國,但仍有機會
培養皿中的「大腦」——慢慢增長的智慧
一種面向關係的物理學:從社交網路到量子糾纏
月光女俠撥弦機
2017,在這裡領略自然大觀的豐富和人類智慧的深刻

TAG:賽先生 |

您可能感興趣

目標設定理論
設定有效目標的好工具!
人生的目標該如何設定
專業攝影師教你設定好用的自定義「C」模式
如何設定有效的職業目標?
護理績效目標如何來設定?
怎樣合理設定跑馬目標成績?這絕對是在考驗跑者的理性和智慧
你有勇氣設定自己的未來嗎?
亞馬遜為全美員工設定最低工資標準,會是雙贏嗎?
看別人玩自己設定的遊戲是怎樣體驗?死神這三位遊戲能力各不相同
給自己設定了一個小目標?先別急著與朋友分享
科技圖鑑 | 設定許可權也未必保護得了你的隱私
不要給自己設定限制
訓練要有目標設定,可別漫無目的進行哦!
設定一個目標
如何設定和達成學習目標?
黑暗森林法則究竟合不合理?《三體》設定並不誇張,強者才能生存
設定家庭的理財目標,理財才會更加明確
奧特曼中那些自己打自己臉的設定,你都了解過嗎?
資管新規設定的「合格投資者」標準超高!你在這類嗎?