當前位置:
首頁 > 新聞 > 「深度好文」怎樣用可交互對抗網路增強人類創造力

「深度好文」怎樣用可交互對抗網路增強人類創造力

集智翻譯組 新智元 今天

「深度好文」怎樣用可交互對抗網路增強人類創造力



新智元推薦

本文經授權轉載自集智俱樂部(ID:swarma_org)

作者:Shan Carter,Michael Nielsen

編譯:集智翻譯組

【新智元導讀】計算機不僅可以是解決數學問題的工具,還可以是擁有實時交互能力,協助人類解決問題,甚至完成創造性工作的輔助系統。具有可交互界面的的機器學習工具,可以幫助人類更高效地設計字體、製作圖片,甚至創造出藝術作品。人工智慧可以大大增強人類智能,本文詳細介紹了這方面的一些探索。本文作者是谷歌大腦團隊科學家Shan Carter和物理學家、YC Research的Michael Nielsen,英文原文發表於可視化機器學習平台Distill。

  • 原文地址:https://distill.pub/2017/aia/
  • 譯文地址:https://zhuanlan.zhihu.com/p/38102140

「深度好文」怎樣用可交互對抗網路增強人類創造力

計算機可以被用來做什麼?


在歷史上,這個問題的不同答案——即對計算的不同見解——有助於啟發和確立最終建立的人性化計算系統。早期的電子計算機 ENIAC,是世界上第一台通用電子計算機,它的目的是為美國軍隊計算火炮射擊表。其他早期的計算機也被用於解決數值問題,如模擬原子彈爆炸、預測天氣、規劃火箭的運動。在批處理模式下運行的機器,使用粗糙的輸入和輸出設備,而且沒有任何實時的交互。這種觀點把計算機看作是數值處理機器,用於加速在之前要花費數周、數月或需要一個團隊人力才能完成的計算任務。

在 20 世紀 50 年代,對計算機用來做什麼的另一個不同的觀點開始發展起來。在 1962 年,當 Douglas Engelbart 提出計算機可以被看作一種增強人類智能 [1] 的方式時,這個觀點開始變得明確起來。在這種觀點下,計算機不是主要解決數值計算問題的工具,而是實時交互的系統,有著豐富的輸入和輸出,使得人類可以一起工作來支持和擴展他們自己解決問題的過程。

這種智能增強(Intelligence Augmentation,簡稱IA)的觀點深深地影響了很多其他人,包括研究員如施樂帕克研究中心(Xerox PARC 的 Alan Kay 和企業家如蘋果的 Steve Jobs,而且導致了很多現代計算系統的關鍵想法的產生。這個觀點同樣深深地影響了數字藝術與音樂,還有交互設計、數據可視化、計算創造力和人機交互等領域。

IA 領域的研究經常和人工智慧(Artificial Intelligence,簡稱 AI)的研究相互競爭:在研究經費上的競爭,吸引有才能的研究員上的競爭。儘管這兩個領域之間總是存在著交叉,但是IA 通常專註於構建系統使人類和機器可以共同協作,而 AI 則專註於將智能任務完全外包給機器。尤其是,AI 的問題通常專註於匹配或者超過人類水平:在象棋或圍棋上打敗人類;學會像人類一樣識別語音和圖像或翻譯語言;等等。

本文描述了一個新的領域,這個領域來自於 AI 和 IA 的綜合。我們建議將這個領域命名為人工智慧增強(artificial intelligence augmentation,簡稱 AIA):使用 AI 系統幫助開發智能增強(IA)的新方法。這個新領域引入了新的重要的基礎問題,這些問題無法關聯到任何的父領域中。我們相信 AIA 的原理和系統將會與大多數存在的系統完全不同。

我們的文章開始於對近期技術工作的調查,這些工作隱含了人工智慧增強技術,包括生成式界面(generative interfaces)的工作——可用於探索和可視化生成機器學習模型。這樣的模型發展出一種生成模型的製圖學,使人們可以用於去探索模型以及從模型中構建意義,並且融合模型知道的信息到他們創造性的工作中。

本文不僅僅是技術工作的綜述。我們相信這是個好的時間點,在這個新領域的建立中識別出一些廣泛而根本的問題。這些新工具能夠多大程度激發創造力?他們能被用於生成令人驚訝的新的想法嗎?還是說這些想法只是陳詞濫調,是基於現存想法的無價值的再結合?這樣的系統能被用於發展出基礎性的新的介面基元嗎?這些新的基元將會如何改變和擴大人類思考的方式呢?

使用生成模型產生有意義的創意操作


讓我們看一個例子,機器學習模型使一類新的介面成為可能。為了理解介面,想像你是一個字體設計師,正在創造一種新的字體。在描述了一些最初的設計後,你希望用粗體、斜體和壓縮的變體進行試驗。讓我們看看一個工具,能從初始設計中生成和探索這些變體。結果的質量是相當粗糙的,我們將在稍後解釋具體原因,請諒解。

當然,變化粗度(如重量)、斜度和寬度只是變化字體的三種方法。想像一下不是構造特定的工具,而是用戶可以僅僅通過選擇現存的字體樣例來構造他們自己的工具。比如,假設你想變化字體的襯線的程度。在下面,請在頂部的盒中,選擇 5 至 10 個無襯線字體,然後拖到左邊的盒子;接著選擇 5 至 10 個襯線字體,拖到右邊的盒子。當你在操作時,運行在瀏覽器中的機器學習模型將會自動從這些例子中,推測出如何在襯線或無襯線的方向上對初始字體進行調整:

「深度好文」怎樣用可交互對抗網路增強人類創造力

原文中的控制項 1 截圖(可點擊 閱讀原文 操作)

實際上,我們使用這個相同的技術構造了上面的粗體、斜體和濃縮工具。為了實現工具,我們使用了下面的例子:粗體和非粗體、斜體和非斜體、濃縮和非濃縮字體:

「深度好文」怎樣用可交互對抗網路增強人類創造力

為了構建這些工具,我們使用了生成模型(generative model),具體使用的是 James Wexler[2] 訓練的模型。為了理解生成模型的用法,想像一下描繪一個字體原本似乎需要大量的數據。比如,如果字體是 64x64 的像素,那麼我們需要 64x64=4096 個參數去描述單個字形。但是我們可以使用生成模型找到一個更簡單的描述。

我們通過構建一個神經網路來實現,它只使用了少量的輸入變數,叫隱變數(latent variable),來產生整個的字形輸出。在我們使用的模型中,隱變數空間維度是 40 維,並將其映射到 4096 維可以描述所有字形像素的空間中。換句話說,這個想法是將一個低維的空間映射到一個高維空間:

「深度好文」怎樣用可交互對抗網路增強人類創造力

我們使用的生成模型是一類叫做變分自編碼器(variational autoencoder, VAE)[3] 的神經網路。對我們的目的來說,生成模型的細節並不是很重要。重要的是,通過改變作為輸入的隱變數,能夠得到不同的字體作為輸出。所以隱變數的一種選擇將會產生一種字體,然而另一種選擇將會產生另一個不同的字體:

「深度好文」怎樣用可交互對抗網路增強人類創造力

你可以把隱變數看成是一種緊湊的、高層次的字體表示。神經網路輸入高層次表示,並且轉化成全像素數據。值得注意的是,我們只需要 40 個數字就能捕捉一個字形的表面複雜性,而最初需要 4096 個變數。

我們使用的生成模型是從 Bernhardsson[4] 在公開網頁收集的超過 5 萬個字體的訓練集中學習到的。在訓練中,網路的權重和偏置被調整,只要隱變數被恰當地選擇,就能使得網路輸出對任意訓練集字體的近似。在某種程度上,模型在學習一個所有訓練集字體的高度壓縮的表示。

實際上,模型不僅重現了訓練字體,而且能泛化、產生訓練集中沒有的字體。通過被強制尋找訓練樣本的一個緊湊描述,神經網路學習到了一個抽象的、更高層次的字體表徵模型。更高層次的模型使得在已知的訓練樣本上的泛化成為可能,能產生具有真實感的字體。

理想情況下,一個好的生成模型在面對少量訓練樣本時,能夠利用它泛化到所有可能的人類可識別的字體的空間。對任意可能的字體——已經存在的或可能在未來可想像的——我們可能找到正好對應那個字體的隱變數。當然我們使用的模型還遠達不到理想的效果——一個非常嚴重的失敗是很多模型生成的字體遺漏了大寫字母 「Q」 的尾部(你可以在上面的例子中看到)。然而,記住一個理想的生成模型能做什麼還是有用的。

在某些方式上,這些生成模型類似於科學理論的作用方式。科學理論經常極大地簡化對出現的複雜現象的描述,把大量的變數減少為僅僅很少的變數,並從中可以推導出系統行為的很多方面。而且,好的科學理論有時能夠被一般化來發現新的現象。

作為一個例子,考慮普通的物體。這些物體有著物理學家稱為(phase)的東西——它們可能是液態、固態、氣態或有時可能更奇異,像超導體或波爾 - 愛因斯坦凝聚態。起初,這樣的系統看起來極其複雜,涉及到 10^23 或更多的分子。但是熱力學定律和統計力學使我們找到一個更簡單的描述,把複雜性減少為僅僅幾個變數(溫度、壓力等等),但是包含了系統的大量行為。

而且,有時可能被一般化來預測意想不到的新的相態。例如,在 1924 年,物理學家使用熱力學和統計力學預測了一個顯著的新的相態,波爾 - 愛因斯坦凝聚態,其中所有原子可能全部處於相同的量子狀態,導致驚人的大規模量子干涉效應。稍後我們在關於創造性和生成模型的討論中會回到這種預測能力上的話題上來。

回到生成模型的具體細節上來,我們如何使用這種模型做基於樣例的推理,像上述工具所展示的?讓我們考慮粗體工具的情形,在那個例子中,我們分別對所有用戶指定的粗體字體和非粗體字體取均值。然後,我們計算這兩個均值向量的差:

「深度好文」怎樣用可交互對抗網路增強人類創造力

我們把它成為稱為粗體向量(bolding vector),為了使給定的字體變粗,我們簡單地加入一點粗體向量到相關的隱變數中,加入粗體向量的量控制著結果的粗度:

「深度好文」怎樣用可交互對抗網路增強人類創造力

這個技術是由 Larsen 等人 [5] 提出的,類似粗體向量的向量有時叫做屬性向量(attribute vectors)。相同的想法被用於所有上述的工具的實現中。於是,我們利用樣例字體產生一個粗體向量、一個斜體向量、一個壓縮向量和一個用戶自定義的襯線向量。所以,這個界面提供了在這四個方向上隱空間的一個探索方法。

我們展示的工具有很多的不足。比如,我們從中間的樣例字體開始,分別向右或向左,增加或減小字體的粗度:

「深度好文」怎樣用可交互對抗網路增強人類創造力

檢查在左邊和右邊的字體,我們看到很多不幸的變形。尤其最右邊的字體,邊緣開始變得粗糙,襯線開始消失。一個更好的生成模型會減少這些變形。這是一個好的長期的研究項目,它展現了很多有趣的問題。但是即使是當前的模型,生成模型的使用同樣有著引人注目的優勢。

為了理解這些優勢,考慮一種簡單的加粗方法,我們簡單地加入一些額外的像素在字體的邊緣,使其變厚。儘管這種加厚可能符合一種非專家的思考字體設計的方式,但是專家會做更多深入的事情。下面,我們展示了這種簡單加厚程序結果和 Georgia 和 Helveticade 所做的字體的比較:

「深度好文」怎樣用可交互對抗網路增強人類創造力

正如看到的,簡單的加粗方法在兩種情形下都產生了相當不同的結果。例如,在 Georgia 的結果中,左邊筆畫只加粗改變了一點點,而右邊的筆畫極大地被增大,但是只在一邊。在兩種字體中,加粗不會改變字體的高度,然而這種簡單的方法會改變。

如這些例子展現的,好的加粗方法不是一個簡單的加厚字體的過程。專業的字體設計師有很多關於粗體的啟發式,這些啟發是從很多過去的實驗中和歷史樣例的仔細研究中推斷出來。在傳統程序中捕捉這些啟發是個繁重的工作。使用生成模型的好處是它可以自動學習很多的啟發。

例如,一個簡單的粗體工具會在字母 「A」 的封閉的上部區域,快速地填充封閉的負空間。字體工具不會這樣做,它會保留封閉的負空間,向下移動 "A" 的橫杆,相比於外部更加緩慢地填充內部筆畫。在上述例子中,這個原則是明顯的,尤其對 Helvetica ,它也被看成是字體工具的操作:

「深度好文」怎樣用可交互對抗網路增強人類創造力

保留封閉負空間的啟發不是一個明顯的先驗直覺,然而,它在很多專業的字體設計中被採用。如果檢查上面的例子,你會容易知道為什麼:它提高了清晰度。在訓練中,我們的生成模型從它看過的樣例中自動推測出這個原則,而且我們的加粗界面將其提供給用戶。

實際上,模型捕捉到很多其他的啟發。比如,在上面的例子中,字體的高度是幾乎不變的,這是專業字體設計中的規範。同樣,粗體操作不僅僅是將字體的加粗,而是應用了一個從生成模型推測出的更微妙的啟發。這些啟發式可以被用於創造帶有屬性的字體,而這些屬性是之前用戶幾乎不可能想到的。所以,這個工具擴展了普通人類在有意義的字體空間中的探索能力。

字體工具是認知技術的一個例子。尤其,它包含的基本操作能夠內化為用戶思考方式一部分。在這裡,它類似於一個 Photoshop 或 3D 圖形軟體。它們都提供了一組新奇的界面基元,這些基本元素能被用戶內化為他們思考過程中基本的新元素。新元素內化是很多智能增強領域工作的基礎。

字體工具中的想法可以擴展到其他領域。使用相同的介面,我們可以使用一個生成模型來操作人臉圖像,如基於表情、性別或頭髮顏色等屬性;或基於長度、諷刺或語氣操作句子;或基於化學性質操作分子:

「深度好文」怎樣用可交互對抗網路增強人類創造力

原文中的控制項 2 操作演示

該生成介面提供了一種生成模型的繪圖法,一種人類使用生成模型探索和創造意義的方法。

我們之前看到字體模型自動地推理出關於字體設計的相對深刻的原則,並提供給用戶。然而這樣的深刻原則能被推理出來是很好的,但是有時,模型推測出一些錯誤或令人不快的東西。例如,White 指出 [6] 一些臉部模型中微笑向量的加入將會使臉部不僅僅出現更多微笑,而且變得更女性化。為什麼呢?因為在訓練數據中,微笑的女性比微笑的男性更多。所以,這些模型不僅僅學習到關於世界的深刻事實,而且同時內化了偏見或錯誤的信仰。一旦偏差被知道,通常它是可能被糾正的。但是為了找到那些偏見需要對模型進行仔細的審核,而且迄今我們仍不清楚如何保證這些審核是徹底的。

更廣泛地說,我們可以問為什麼屬性向量有作用,它們什麼時候起作用,什麼時候不起作用?現在,我們對這些問題的答案了解甚少。

為了使屬性工作,我們需要輸入任意開始字體,通過在隱空間中加入相同向量來構造相關的粗體版本。然後,我們知道,沒有理由使用單個常量向量的移動才會工作,也許我們應該用很多不同的移動方法。比如,用於粗體襯線和無襯線字體的啟發是相當不同的,所以似乎應該使用非常不同的移動方法:

「深度好文」怎樣用可交互對抗網路增強人類創造力

當然,我們可以做比使用單個常量屬性向量更複雜的事情。給定一對樣例字體(非粗體,粗體),我們能夠訓練一個機器學習演算法,輸入非粗體版本的隱向量,輸出粗體版本的隱向量。給出更多字體權重的訓練數據,機器學習演算法能學習生成任意權重的字體。屬性向量只是一種實現這類操作的極其簡單的方法。

由於這些原因,屬性向量將不太可能作為一種最終的操作高層次特徵的方法。在未來幾年,更好的方法將會發展出來。然而,我們仍能夠期望介面能夠提供廣泛地類似於上面描述的操作,能夠操作高層次的和潛在的用戶定義的概念。介面模式不再依賴於屬性向量的技術細節。

交互生成對抗模型

讓我們看另一個使用機器學習模型增強人類創造力的例子。它是 2016 年,Zhu 等人 [9] 提出的交互生成對抗網路(interactive generative adversarial networks)或 iGAN。

這篇文章中的一個例子是在一個介面中使用 iGAN 生成消費品的圖片,如鞋子。傳統上,這個介面需要程序員編寫一個包含大量鞋子相關知識的程序:鞋底、鞋帶、鞋跟等等。Zhu 等人沒有這樣做,而是使用從 Zappos 下載的 5 萬張鞋子的圖片,訓練了一個生成模型。然後他們使用這個生成模型構建了一個界面讓用戶可以大概地描述鞋子的形狀、鞋底、鞋帶等等:

「深度好文」怎樣用可交互對抗網路增強人類創造力

視覺效果並不是太好,部分因為 Zhu 等人使用的生成模型在現代(2017)的標準中是過時的——使用更現代的模型,視覺效果會更好。

但是視覺效果不是重點。在這個原型中,很多有趣的事情正在發生。比如,注意當鞋底被填滿時,鞋子的整體形狀會如何顯著地變化——它變得更窄和更光滑。很多小的細節被填滿,像白色鞋底上方的黑條,和鞋子上部到處填滿的紅色。這些和其他的事實是自動從底層的生成模型中推斷出來的,我們將會簡單描述該方法。

相同的界面可能被用於描述風景。唯一的區別是背後的生成模型使用的是風景圖片來訓練,而不是鞋子的圖片。在這種情形下,只描述和風景相關的顏色變得可能。例如,這是用戶在描述一些綠色的草、山的輪廓、一些藍天和山上的雪:

「深度好文」怎樣用可交互對抗網路增強人類創造力

在這些介面中使用的生成模型不同於我們的字體模型,不是使用變分自編碼器,而是基於生成對抗網路(generative adversarial networks, GANs)。但是背後的想法仍然是找到一個低維的隱空間,能夠表示所有的風景圖片,並且將該隱空間映射到相關的圖片中。同樣,我們可以認為隱空間中的點是描述風景圖片的一種緊湊的方法。

大概來說,iGAN 的工作方式如下所示。不論當前的圖片是什麼,它關聯到隱空間中的一些點:

「深度好文」怎樣用可交互對抗網路增強人類創造力

假設,如之前視頻中發生的,用戶現在用筆劃描述山的形狀輪廓。我們可以認為筆劃是圖片上的一個約束,在隱空間中選擇一個子空間,該子空間由匹配輪廓的圖片的所有隱空間中的點組成:

「深度好文」怎樣用可交互對抗網路增強人類創造力

介面工作的方法是找到隱空間中一個距離當前圖片最近的點,所以圖片不僅變化很大,同時也接近滿足強制的約束。這是通過優化一個目標函數實現的,該目標結合了到每個強制約束的距離和偏移當前點的距離。如果只有單個約束,比如,關於山的筆劃,它看起來如下圖:

「深度好文」怎樣用可交互對抗網路增強人類創造力

然後,我們可以把它看作是一種應用對隱空間的約束,用有意義的方式移動圖片。

iGAN 和我們之前展示的字體工具有很多共同點。它們的操作都編碼了很多關於世界的精細的知識,比如當它學習理解山看起來是什麼或加粗字體時,推測出封閉負空間應該保留。iGAN 和字體工具都提供了理解和在高維空間導航的方法,使我們保持在字體、鞋子或風景的自然空間中。

如 Zhu 等人提到的:


對我們大多數人,Photoshop 中簡單的圖片處理呈現了不可逾越的困難。任何不那麼完美的編輯立刻使圖片看起來完全不真實。換另一種方式,傳統的視覺操作範式不會防止用戶 「脫落」 自然圖片的流形。

像字體工具一樣,iGAN 是一種認知技術。用戶可以內化界面的操作為他們思考中的新的基本元素。比如,在鞋子的例子中,他們可以學慣用他們想要應用的差異來思考,如加入鞋跟或更高的頂部或特別的高亮。這比傳統方式中非專家對鞋子的思考(「尺碼 11, 黑色」 等等)更加豐富。

在非專家用更複雜的方式思考的範圍——「使頂部更高點或更光滑」——他們在這種思考方式下得到的經驗很少,或很難看到他們選擇的結果。像這樣的界面使探索、發展風格的能力、規劃的能力、和朋友交換想法等等都更簡單。

計算的兩種模型


讓我們重新審視本文開始的問題,計算機可以被用來做什麼?它和智能增強有什麼關係。

計算機的一個常見概念是——它們是解決問題的機器:「計算機,在這樣或者那樣的風向下(等等情況)下發射炮彈的結果是什麼?」;「計算機,在未來 5 天東京的最高溫度是多少?」;「計算機,當圍棋棋盤處於這個位置時,最好的選擇是什麼?」;「計算機,這個圖片該如何分類?」 等等。

在計算機作為數字運算機器的早期看法中,還有大量 AI 上的工作中,在歷史和今天的看法中,這是一個很常見的概念。這個模型是計算機作為一種外包認知的方法。在 AI 未來的可能推測上,這種外包認知模型在 AI 的視角下經常作為預言家出現,能夠以比人類更好的水平解決一些大類問題。

但是對於計算機為了什麼這個問題,一個非常不同的概念是可能的,一個和智能增強的工作更一致的概念。

為了理解另一個觀點,考慮我們對於思考的主觀經驗。對很多人,這個經驗是口頭上的:他們用語言思考,在頭腦中形成單詞鏈,類似於演講或寫在紙上的句子。對於另一些人,思考是一個更加視覺的體驗,處理像圖和地圖的表示。仍然有些人混合了數學到他們的思考中,使用代數表示或圖表技術,比如費曼圖和彭羅斯圖。

在每種情形下,我們都使用了別人發明的表示來思考:單詞、圖、地圖、代數、數學圖表等等。隨著成長,我們內化了這些認知技術,並且使用它們作為我們思考的一種基底。

在大多數歷史中,可獲取的認知技術的範圍是緩慢、逐漸變化的。一個新的單詞或一個新的數學符號將被引入。更少見的,一個激進的新的認知技術將會被發展。例如,在 1637 年,笛卡爾發表了他的《方法論》,解釋了用代數表示幾何觀點,反之亦然:

「深度好文」怎樣用可交互對抗網路增強人類創造力

這使得我們在對代數和幾何的思考方式發生了根本上的改變和擴展。

歷史上,持久的認知技術很少被發明出來。但是現代計算機是元 - 媒介(meta-medium),使得很多新的認知技術被快速發明出來。考慮一個相對平常的例子,例如 Photoshop,精於 Photoshop 的用戶經常出現之前不可能有的想法比如:「讓我們對這個的層應用克隆圖章」。這是一個更一般的思考類型的例子:「計算機,【新型動作】這個【新設想的對象類的新型表示】」。當它發生時,我們在使用電腦擴展我們可以思考的想法範圍。

這種認知轉換模型(cognitive transformation model)成為了大量智能增強領域中那些深入工作的基礎。不僅僅是外包認知,它改變了我們用于思考的操作和表示;它改變了思想本身的基底。而且雖然認知外包很重要,這種認知轉換觀點提供了一種對智能增強更有意義的模型。在這種觀點下,計算機是改變和擴大人類思想的工具。

歷史上,認知技術是人類發明家發展出來的,從在蘇美爾和中美洲的寫作的發明,到現代界面的設計,如 Douglas Engelbart,Alan Kay 和其他設計師。

本文描述的例子表明,AI 系統推動了新的認知技術的發明。字體工具不僅僅是當你需要一個新字體時可以諮詢的預言家。而且,它們可以被用於探索和發現,提供新的表示和操作,能夠被內化為用戶思考的一部分。雖然這些例子只處於早期階段,但是它們預示著 AI 不僅僅是關於認知外包。對於 AI 的一個不同觀點是,它幫助我們發明新的認知技術,轉換我們思考的方式。

本文中,我們集中於少量例子,更多涉及隱空間的探索。有很多其他人工智慧增強的例子,舉一些,但不全面:sketch-rnn system[11],用神經網路輔助畫畫;Wekinator[12],使用戶快速建立新的樂器和藝術系統;TopoSketch[13],通過探索隱空間生成動畫;機器學習模型設計整個印刷排版 [15];生產模型能在樂句間插值[15]。在每種情形下,系統使用機器學習把新的元素整合到用戶的思考中。更廣泛地,人工智慧增強將會開拓像計算創造性[16] 和交互機器學習 [17] 這樣的領域。

尋找強大的思想新基元


我們認為機器學習系統能有助於創造表示和操作,作為人類思考中的新基元。在這些新基元中我們應該尋找什麼樣的性質?這是一個太大的問題,無法在一篇短文中全面地回答。但是我們將會簡略地探索一下。

歷史上,重要的新媒介形式剛引入時通常看起來很奇怪。很多這樣的故事傳到流行文化中:「斯特拉文斯基 Stravinsky 和尼金斯基 Nijinksy 的《春之祭》的首映禮的暴亂」;」 早期立體畫派引起的恐慌,紐約時報對其評論:『他們在表達什麼?這些畫的作者是否失去理智?這是藝術還是瘋狂?誰知道呢?』」。

另一個例子來自物理學。在 20 世紀 40 年代,量子電動力學的理論構想獨立地由物理學家朱利安 · 施溫格 Julian Schwinger、朝永振一郎 Shin』ichirō Tomonaga 和理查德 · 費曼 Richard Feynman 發展出來。在他們的工作中,施溫格和振一郎使用傳統代數的方法,沿著其他物理學家相似的路線。而費曼使用一個更激進的方法,基於現在有名的費曼圖,用於描述光和物質的交互:

「深度好文」怎樣用可交互對抗網路增強人類創造力

最初,施溫格和振一郎的方法更容易被其他物理學家理解。當費曼和施溫格在 1948 年討論會上展示他們的工作時,施溫格立刻受到讚揚。相反,費曼的工作使觀眾感到困惑。

如 James Cleick 在他的費曼傳記 [19] 中寫到:


這打擊了費曼,每個人都有一個喜歡的原理或定理,他當時全部違背了它們... 費曼知道他失敗了。當時,他極其痛苦。後來,他簡單地說:「我的東西太多了,我的機器來自太遙遠的地方。」

當然,僅僅是因為奇怪的奇怪是沒有用的。但是,這些例子暗示了在表示上的重大突破在一開始經常顯得奇怪。還有其他正確的潛在原因嗎?

部分原因是因為如果一些表示是非常新的,那麼它看起來會和你之前見到的事情不同。費曼圖、畢加索的畫、斯特拉文斯基的音樂都揭示了真正的有意義的新方法。好的表示能讓你敏銳地洞察事物,幫助使熟悉的事物儘可能生動地展現出新事物。但是因為對不熟悉的強調,表示會看起來很奇怪:它展示了你之前從未見過的關係。在某種程度上,設計師的任務是識別出關鍵的奇特,然後儘可能地放大它。

奇特的表示經常是難以理解的。開始,物理學家們喜歡施溫格 - 振一郎的方法甚於費曼的。但是,隨著費曼的方法慢慢被物理學家理解,他們意識到雖然施溫格 - 振一郎的方法和費曼的在數學上是等價的,費曼的方法更加強大。

如 Gleick 所說:


施溫格的學生們在哈佛處於競爭的劣勢,一如別處的同僚們與之而言,同僚們懷疑他們是不是在偷偷地使用著費曼圖。這有時是正確的,默里蓋爾曼之後花了一個學期待在施溫格的家裡,後來喜歡說他已經搜索了費曼圖的每個地方,他沒有找到什麼,除了一個已經被鎖上的門...

這些想法不僅對歷史上的表示是正確的,對計算機的介面同樣是。然而我們對奇怪的主張違反了很多傳統界面的智慧,特別是被廣泛持有的信念,它們應該是 "用戶友好" 的,如簡單、初學者能立刻使用。

這經常意味著界面是陳舊的,是用傳統元素以標準的方法構造而成。然而雖然使用陳舊的界面可能是簡單和有趣的,它輕鬆的像閱讀一部公式化的浪漫小說。它意味著界面沒有揭示任何關於主題區域的真正新奇的東西。所以它幾乎不能加深用戶的理解,或改變他們思考的方式。對一般的任務是沒問題的,但是對更深刻的任務,在更長期上,你想要一個更好的介面。

理想上,界面能展示主題下的更深的原則,向用戶揭示一個新的世界。當你學會這個界面,你能內化這些原則,擁有更強大的對世界的推理能力。這些原則是你理解中的擴散器,它們是你真正想看見的全部,其他都是處於最好的支持或最壞的不重要的碎渣。最好的界面的目的在淺層意義上不是用戶友好的,它是更強意義上的用戶友好,是具體化有關世界的原則 [20],使它們成為用戶生活和創造的工作環境。在那時,一旦看起來奇怪的反而變得舒服和熟悉,變成思考模式的一部分。

在智能增強上使用 AI 模型意味著什麼?

我們希望,如我們看到的,我們的機器學習模型將會幫助我們構建介面,用對用戶有意義的方式使深刻原則具體化。為了實現它,模型必須發現關於世界的深刻原則、識別出這些原則、而且儘可能用一種用戶理解的方式,生動地在介面中表現出來。

當然,這是離譜的要求,我們展示的例子僅僅只是一個開始。確實我們的模型有時能發現深刻的原則,像在加粗字體時對封閉負空間的保留,但是這僅僅隱藏在模型中。然而,我們已經構建了能利用這些原則的工具,如果模型能自動地推測出重要的原則,並找到方法明確地表現出這些原則(鼓勵過程朝著 infoGAN[21] 的結果前進,它使用了資訊理論的想法找到隱空間的結構),這就更好了。理想地,這樣的模型開始得到真正的解釋,不只是靜態的形式,還有動態的形式,用戶可以操作的。但是我們離那一點還有很長的路要走。


這些交互界面會抑制創造力嗎?

懷疑我們已經描述的界面的表達豐富性,是件誘人的事情。如果一個界面約束我們只探索圖片的自然空間,是否意味著我們只在做被期望的事情呢?是否意味著這些介面只能被用於生成視覺的陳詞濫調呢?它會阻止我們生成真正新的東西、做真正有創造性的工作嗎?

為了回答這些問題,識別出創新的兩種不同的模式是有幫助的。這兩種模式的模型是過於簡化的:創造力並不能很好地分為這兩類。儘管如此,這個模型還是澄清了在創造性工作中新介面的角色。

創造的第一個模式是一個工匠每天從事工作的創造性。比如,一個字體設計師的大量工作是由最好的現存經驗重新組合而成。這樣的工作通常是許多創造性的選擇,以滿足預期的設計目標,而不是開發關鍵的新的內在原則。

對於這樣的工作,我們一直討論的生成介面是有前景的。雖然它們目前有很多局限性,但未來的研究將發現並解決許多不足。這在 GAN 身上發生得很快:最初的 GAN 有很多限制 [10],但很快又出現了更適合圖片的模型 [22],改進了解析度,減少了工件等等。有了足夠的迭代,這些生成界面將成為工藝工作的強大工具。

第二種創造模式的目的是發展新的原則,從根本上改變創造性表達的範圍。人們可以在畢加索或莫奈等藝術家的作品中看到這一點,他們違反了現存的繪畫原則,發展出新的原則,使人們能夠以新的方式看到事物。

在使用生成介面時,是否有可能做這樣的創造性工作呢?這樣的介面會不會限制我們在自然圖片或自然字體的空間,因此阻止了我們積極地在創造性工作中探索有趣的方向?

情況比這更複雜。

在某種程度上,這是一個關於我們的生成模型的能力的問題。在某些情況下,模型只能夠生成現存想法的重新組合。這是理想的 GAN 模型的限制,因為一個經過完美訓練的 GAN 生成器將複製訓練數據的分布。這樣的模型不能創造一個新的基本原則來直接生成圖片,因為這樣的圖片沒法從在訓練數據中得來。

像 Mario Klingemann 和 Mike Tyka 這樣的藝術家現在用 GAN 來創作有趣的藝術品。他們使用的是 「不完美的」 GAN 模型,他們似乎能用來探索有趣的新原則;也許不好的 GAN 比理想的 GAN 模型在藝術上更有趣。此外,沒有說介面只能幫我們探索隱空間。也許可以添加一些操作,故意將我們帶出隱空間,或者減少自然圖片空間的可能性(以及更令人驚奇的)部分。

當然,GAN 不是唯一的生成模型。在一個足夠強大的生成模型中,模型發現的概括可能包含了超越人類發現的思想。在這種情況下,對隱空間的探索可能使我們能夠發現新的基本原則。模型會比人類專家發現更強的抽象。想像一下,在立體畫派出現之前,一個專門研究繪畫的生成模型;也許通過探索這個模型,我們就有可能發現立體主義嗎?正如本文之前所討論的,這將是類似於對波爾 - 愛因斯坦凝聚態預測的類比。這種發明超越了當今的生成模型,但似乎是對未來模型的一種有價值的渴望。

到目前為止,我們的例子都是基於生成模型的,但是有一些啟發性的例子不是基於生成模型的。考慮由 Isola 等人 [23] 提出的 pix2pix 系統這個系統訓練成對的圖片,例如表現貓的邊緣和實際的貓。一旦經過訓練,就可以顯示一組邊緣,並要求它為生成實際對應的貓的圖片,它經常表現得很好:

「深度好文」怎樣用可交互對抗網路增強人類創造力

在不尋常的限制條件下,pix2pix 可以產生驚人的圖片:

「深度好文」怎樣用可交互對抗網路增強人類創造力

這也許不是畢加索式的高級創造力,但仍是驚人的。這當然不像我們大多數人以前見過的圖片。pix2pix 和它的用戶是如何達到這種效果的呢?

與前面的例子不同,pix2pix 不是生成模型。這意味著它沒有隱空間,也沒有對應的自然圖片空間。而是一個神經網路,令人困惑地被稱為生成器——這與我們早期的生成模型並不同——它以約束的圖片作為輸入,並生成填充的圖片。

生產器的訓練和判別器網路的訓練是對抗的,判別器的工作是區分出從真實數據中生成的圖片組和由生成器生成的圖片組。

雖然這聽起來很像傳統的 GAN,但是有一個關鍵的區別:生成器中沒有隱向量輸入,相反,這裡只有一個輸入約束。當人輸入一種與訓練數據不一樣的約束時,網路就被迫即興發揮,盡其所能地根據之前所學的規則來解釋這個約束。創造力是由訓練數據推斷出的知識與用戶提供的約束一起作用的結果。因此,即使是相對簡單的想法——比如麵包或眼睛貓——也能產生引人注目的新型圖片,這些圖片並不在我們之前認為的自然圖片的空間中。


總結

傳統觀念認為人工智慧將改變我們與計算機交互方式。不幸的是,人工智慧社區中的許多人大大低估了介面設計的深度,往往將其視為一個簡單的問題,主要是關注於如何使事物變得漂亮或易於使用。從這個角度來說,介面設計是一個交給別人的問題,而繁重的工作是訓練一些機器學習系統。

這種觀點是不正確的,介面設計最深層的含義是開發人類思考和創造的基本要素。這個問題的知識起源可以追溯到字母表的發明者、製圖學的發明者、音樂符號的發明者以及現代的巨人如笛卡爾、普萊菲爾、費曼、恩格爾巴特和凱。這是人類所面臨的最困難、最重要、最根本的問題之一。

如前所述,在人工智慧的一個普遍觀點中,我們的計算機將繼續在解決問題方面做得更好,但人類基本保持不變。在第二種常見的觀點中,人類將在硬體層面進行修改,可能直接通過神經介面,或者間接通過全腦模擬。

我們描述了第三種觀點,AI 實際上改變了人類,幫助我們發明了新的認知技術,擴展了人類思維的範圍。或許有一天,這些認知技術將反過來加速 AI 的發展,形成良性循環:

「深度好文」怎樣用可交互對抗網路增強人類創造力

它不會是機器中的奇點,相反,它將是人類思維中的一個奇點。當然,這個循環目前僅僅只是一個推測。我們所描述的系統可以幫助開發更強大的思維方式,但至多有一種間接的感覺,即這些思維方式被用來開發新的 AI 系統。

當然,從長期來看,機器在所有或大部分認知任務上都有可能超過人類。即便如此,認知轉換仍將是一個有價值的目標,值得我們自己去追求。學習下象棋或圍棋是有趣和有價值的,即使機器做得更好。而在諸如講故事之類的活動中,益處往往更多地來自建構故事和人物關係這一過程,而非最終的產物。個人的改變和成長還具有內在的價值,除了工具性利益以外。

我們討論的面向介面的工作超出了用來評價 AI 中大多數現有工作的敘述。它不涉及擊敗某個分類或回歸問題的基準。它無需非得在譬如圍棋這樣的比賽中,擊敗人類的冠軍。相反,它涉及一個更為主觀和難以衡量的標準:它是否有助於人類以新的方式思考和創造?

這給這類工作帶來了困難,尤其是在研究環境中。比如,這應該發表在哪裡呢?它屬於什麼社區呢?應該用什麼標準來評判這樣的工作呢?好的工作和壞工作的區別是什麼?

我們相信,在未來幾年內,將出現一個能夠回答這些問題的社區。它將舉辦研討會和會議。它將在類似 Distill 等地方發表工作。它的標準將來自許多不同的社區:有藝術社區和音樂社區的探討;有數學社區的對抽象的品味及 「好」 的定義;以及現有的 AI 和 IA 社區(包括計算創造力和人機交互的工作)。

對成功的長期測試將是開發被創造者廣泛使用的工具。藝術家們是否在使用這些工具來開發不同尋常的新風格?其他領域的科學家是否用它們來發展用其他方法不可能獲得的理解?這些都是偉大的理想,需要一種建立在傳統人工智慧上的方法之上,但也包含了非常不同的規範。


參考文獻

[1] Augmenting Human Intellect: A Conceptual Framework Engelbart, D.C., 1962.

[2] deeplearn.js font demo [link] Wexler, J., 2017.

[3] Auto-encoding variational Bayes Kingma, D.P. and Welling, M., 2014. ICLR.

[4] Analyzing 50k fonts using deep neural networks [HTML] Bernhardsson, E., 2016.

[5] Autoencoding beyond pixels using a learned similarity metric Larsen, A.B.L., S?nderby, S.K., Larochelle, H. and Winther, O., 2016. ICML.

[6] Sampling Generative Networks [PDF] White, T., 2016.

[7] Writing with the Machine [link] Sloan, R., 2017. Eyeo.

[8] Automatic chemical design using a data-driven continuous representation of molecules [PDF] Gómez-Bombarelli, R., Duvenaud, D., Hernández-Lobato, J.M., Aguilera-Iparraguirre, J., Hirzel, T.D., Adams, R.P. and Aspuru-Guzik, A., 2016.

[9] Generative visual manipulation on the natural image manifold Zhu, J., Kr?henbühl, P., Schechtman, E. and Efros, A.A., 2016. European Conference on Computer Vision (ECCV).

[10] Generative adversarial nets Goodfellow, I.J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. and Bengio, Y., 2014. Advances in Neural Information Processing Systems (NIPS), pp. 2672-2680.

[11] A Neural Representation of Sketch Drawings [PDF] Ha, D. and Eck, D., 2017.

[12] Real-time human interaction with supervised learning algorithms for music composition and performance. Fiebrink, R., 2011. Princeton University PhD Thesis.

[13] TopoSketch: Drawing in Latent Space Loh, I. and White, T., 2017. NIPS Workshop on Machine Learning for Creativity and Design.

[14] Taking The Robots To Design School, Part 1 [link] Gold, J., 2016.

[15] Hierarchical Variational Autoencoders for Music [PDF] Roberts, A., Engel, J. and Eck, D., 2017. NIPS Workshop on Machine Learning for Creativity and Design.

[16] Computational creativity: the final frontier? Colton, S. and Wiggins, G.A., 2012. ECAI.

[17] Interactive machine learning: letting users build classifiers Ware, M., Frank, E., Holmes, G., Hall, M. and Witten, I.H., 2001. International Journal of Human-Computer Studies, Vol 55, pp. 281-292.

[18] Eccentric School of Painting Increased Its Vogue in the Current Art Exhibition — What Its Followers Attempt to Do?[link] 1911. The New York Times.

[19] Genius: The Life and Science of Richard Feynman Gleick, J., 1992. Vintage Books.

[20] Thought as a Technology [HTML] Nielsen, M., 2016.

[21] InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets Chen, X., Duan, Y., Houthooft, R., Schulman, J., Sutskever, I. and Abbeel, P., 2016. NIPS.

[22] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [PDF] Radford, A., Metz, L. and Chintala, S., 2016. ICLR.

[23] Image-to-Image Translation with Conditional Adversarial Networks [PDF] Isola, P., Zhu, J., Zhou, T. and Efros, A.A., 2017.

原文地址:https://distill.pub/2017/aia/



喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

機器學習預測世界盃:巴西奪冠
谷歌大腦工程師給2018學術頂會劃重點:對抗性學習+強化學習

TAG:新智元 |