數學的簡潔性推了動進化速度?
為了在天文學的巨大可能性集合中尋找到最佳解決方案,計算機科學家們正從進化生物學中尋找靈感。神造論者堅信,進化必須將300多種氨基酸按照正確的順序組合在一起,才能創造出中等大小的蛋白質。如果每個位置上可能會出現20種氨基酸中的一種,那麼這似乎會出現20^300種以上的可能性,這一龐大數量使得可觀測宇宙中的原子數量變得無關緊要。即使不考慮那些能使某些序列有效對等的冗餘,進化在數十億年之內通過隨機突變找到正確組合的可能性也非常小。他們論點中的致命缺陷是進化不僅僅隨機測試序列:自然選擇過程篩選了這一領域。
博科園-科學科普:此外大自然似乎還發現了其他捷徑,將廣闊的可能性空間縮小成更小、可探索的子集,從而提高產生有效解決方案的幾率。計算機科學家也面臨著類似挑戰——在天文學巨大的可能性集合中尋找最佳解決方案。一些研究者試圖從生物學中尋找靈感,儘管生物學家仍在嘗試弄清楚生命究竟如何運轉。遺傳演算法是一種已經流行了幾十年的優化方法,它利用自然選擇原理用於新的設計——機器人、藥物和運輸系統等,訓練神經網路或對數據進行加密和解密。該技術將隨機解決問題的方法視為「生物體」,生物體具有代碼中描述的某些「遺傳」特徵或元素。解決方案並不是特別完美,但生物體隨後會經歷隨機突變組合,有時還會發生模仿基因重組過程的變化,產生第二代生物體,這些生物體又會被測試其執行所需任務的「適應性」。
在找尋一個問題解決方案的廣泛區域時,大多數路徑都是死胡同。現在,進化或許已經找到了提高成功幾率的方法。圖片:Ricardo Bessa for Quanta Magazine
最終這個過程的多次重複會產生一個非常適合的個體,或者解決方案。一些專家計劃將這種方法進一步優化:在所謂的遺傳編程中,開發出可以編寫程序並高效地提出解決方案的軟體。事實證明,這一目標十分棘手,因為研究人員必須考慮特定的數據類型和結構,以及其他條件。有趣的是,基於進化的思維方式(尤其是遺傳編程)在概念上與數學理論重疊,而數學理論在生物學和計算機科學中基本上都處於邊緣地帶。最近一些科學家試圖利用數學理論來洞察自然和人工進化如何高效創造新奇和學會學習。關鍵是,複雜性、隨機性和信息的特定概念直到現在還沒有多少實際應用。
1、鍵盤上的猴子
這個理論在20世紀60年代盛行,用來處理所謂的演算法信息。它以概率和複雜性的直觀思考方式作為出發點,這種思想認為,對於某些輸出,描述如何生成某種東西在計算上比實際生成它更容易。舉個老生常談的例子,猴子在電腦上隨意按鍵。輸入π的前15000個數字的可能性非常小,隨著所輸入數字的增長,這種可能性呈指數級下降。如果猴子的按鍵被解釋為隨機編寫的電腦程序來生成圓周率,那麼成功的幾率,或者說「演算法概率」就會顯著提高。例如在編程語言C中生成π的前15000位的代碼可以短至133個字元。
換句話說,演算法資訊理論本質上是:當隨機性在描述它的程序的級別而不是在輸出本身的級別上運行時,產生某些類型輸出的概率要大得多。通過這種方式,複雜的結構例如分形,更容易由偶然產生。但演算法資訊理論很快出現了一個問題,數學家們發現,給定輸出(指定所需的最短程序的長度)的演算法複雜度(也稱為Kolmogorov複雜度,以該理論的創始人之一安德烈?科爾莫戈羅夫(Andrey Kolmogorov)的名字命名)不可計算。因此,計算機科學家無法確定壓縮字元串或其他對象的正確方法。由此演算法資訊理論大多被歸入純數學領域,用於探索相關定理,定義隨機性和結構的概念。
圖片:Lucy Reading-Ikkanda/Quanta Magazine
IBM托馬斯·j·沃森中心(Thomas J. Watson Center)和里約熱內盧聯邦大學,也是該理論的另一位創始人,著名數學家格雷戈里·查廷(Gregory Chaitin)說:從數學上講,這是一種簡單、美麗的複雜性度量方法,但在現實應用中,它看起來遙不可及。然而這並沒有阻止他去嘗試,他希望這一理論能被正式用於證明DNA作為軟體的觀點。2012年他出版了一本書描述了進化如何被視為在軟體空間中隨機遊走。他認為,行走過程中的突變並不遵循統計上的隨機概率分布了,相反它們遵循基於Kolmogorov複雜性的分布,但是他沒有辦法測試。現在,一些科學家希望重振這一理論,使之與生物學和計算機科學領域相關。
2、對簡單性的偏愛
瑞典卡羅林斯卡學院(Karolinska Institute)計算機科學家赫克托?澤尼爾(Hector Zenil)是試圖復興這一理論的科學家之一。他一直在與其他研究人員合作,利用Kolmogorov複雜性來分析生物網路的複雜性,比如模擬細胞中基因調控或蛋白質相互作用的網路。研究人員對網路的演算法信息內容進行比擬(由於實際值無法計算),然後在網路中引入一個突變,測試其對Kolmogorov複雜性的影響。希望通過這種方法揭示出網路的各種元素的相對重要性,以及網路如何對有意的變化作出功能性的反應。最近發表在《arxiv》上的結果顯示:通過引入導致網路描述性程序變長的突變,使網路向更大的Kolmogorov複雜性移動,趨向於增加系統可以執行的功能數量,同時使其對擾動更加敏感。
如果它們推動網路變得更加簡單,則會出現更少但更穩定的功能。但是Kolmogorov複雜性是否能作為一種工具之外的東西——作為蔡廷認為的變革驅動力還有待觀察。儘管演算法信息的確存在問題,但它在生物學領域確實有一些吸引力。傳統上,用來描述進化動力學的數學框架是種群遺傳學,但是群體遺傳學也有其局限性;例如,它不能解釋生命的起源和其他主要的生物轉變,也不能解釋全新基因的出現。一個在數學理論中迷失的概念是生物創造力的體現,如果我們把演算法信息考慮進去,創造力就會自然而然地融入其中。進化過程本身會隨著時間的推移而改善並變得更有效率的觀點也是如此。
著名數學家格雷戈里·查廷(Gregory Chaitin)是演算法資訊理論的創始人之一,他認為進化可以被理解為在軟體空間中進行的一種隨機計算。圖片:Courtesy of Gregory Chaitin
英國赫特福德大學(University of Hertfordshire)的計算機科學家、人工智慧教授丹尼爾?波拉尼(Daniel Polani)說:如果這可以通過演算法複雜度漸近下降來表達,我也不會感到驚訝。澤尼爾和團隊開始實驗探索演算法複雜性框架的生物學和計算含義。利用他們開發的用於分析和干擾網路的複雜度近似技術,他們通過使突變偏向於產生演算法複雜度較低矩陣的突變,「進化」出人工遺傳網路,以達到某些目標——表示基因之間相互作用的1和0矩陣。換句話說,他們選擇了更大的結構。他們最近在英國皇家學會(Royal Society)《開放科學》(Open Science)上發表報告稱:與統計上的隨機突變相比,這種突變偏差導致網路明顯更快地向解決方案進化。
瑞典卡羅林斯卡學院(Karolinska Institute)的計算機科學家赫克托?澤尼爾(Hector Zenil)試圖從生物網路演算法(或Kolmogorov)的複雜度來分析進化中的生物網路。圖片:Courtesy of Hector Zenil, Photo by CSHV/Skof
其他特徵也出現了,包括持久規則的結構,這些結構在矩陣中已經達到了一定程度的簡單化,新一代不太可能改進。澤尼爾(Hector Zenil):一些區域更容易或更不容易發生突變,這僅僅是因為它們可能進化出了某種程度的簡單性。研究人員提出,基因記憶反過來更快地產生更大的結構,這意味著演算法上的突變也可能導致多樣性的爆發和滅絕。這意味著當我們討論進化時,考慮計算過程很有成效,他希望利用對隨機性和複雜性的理解來識別更容易發生突變的區域,或者找出某些基因相互作用與癌症等疾病相關的原因。
3、迭代軟體
澤尼爾希望探索生物進化是否也遵循同樣的計算規則,但大多數專家對此表示懷疑。目前還不清楚是什麼自然機制導致了演算法複雜度的近似,或者導致了突變偏差。此外,法國國家科學研究中心(National Center for Scientific Research)的數學家朱塞佩朗戈(Giuseppe Longo)說:把生命完全編碼成四個字母的想法是錯誤的。DNA極其重要,但如果它不在細胞中,不在生物體中,不在生態系統中,那就沒有意義了。其他交互作用也在發揮作用,而這種演算法信息的應用無法捕捉到複雜性的程度。儘管如此,這個概念還是引起了一些人的興趣,特別是因為思考進化和計算過程的方式似乎與遺傳編程的軟體進化目標有一些共同之處。
事實上查廷和澤尼爾關於Kolmogorov複雜性和遺傳編程方法的觀點之間存在著一些有趣的暗示。例如,2001年一個研究小組報告表示:遺傳程序輸出的複雜性可以被原始程序的Kolmogorov複雜性所限制。在大多數情況下,Kolmogorov複雜性並沒有在計算機科學家理解演算法中發揮作用。相反,研究者們嘗試了其他方法來修改所涉及的基因和突變。另一些人則偏向於支持替換較大代碼塊的突變。馬薩諸塞州漢普郡學院(Hampshire College)的計算機科學家李斯佩克特(Lee Spector)說:人們已經發現了幾百種不同版本的突變和交叉。斯佩克特最近領導的一個團隊展示了在生物體基因組中添加和刪除突變的優點,而不是直接用另一個基因替換一個基因。
這種新的遺傳演算法最終在基因組搜索空間中以指數形式擴展了路徑的數量,並帶來了更好的解決方案。儘管如此,許多研究人員仍選擇背道而馳,繼續尋找一種聰明的方法——通過縮小搜索空間來加快搜索速度,同時又不會對搜索空間造成太大的限制;但這種搜索方式可能會錯過最佳結果。正如尤金?威格納(Eugene Wigner)在1960年指出的那樣:自然科學中數學的不合理有效性。計算機科學家發現,更簡單的模型往往被證明更為普遍、有效。問題是,它是否能告訴我們一些關於宇宙深處的東西,無論如何,它看起來真的有用嗎?
讓程序朝著簡單方向發展可能具有破壞性,例如獎勵程序長度較短之類的東西,可能會削減對後代人有用的假想殘次品,可能犧牲實驗過程中的最佳解決方案,所以你被困住了。但是簡單仍然十分誘人,並且可能大有用處。在去年發表的論文中,斯佩克特和同事們發現,如果他們減小程序的大小——有時僅為25%的原始大小,在執行遺傳編程技術過程中,程序的表現要好於新的數據,並且能夠廣泛用於一般問題。這也是他一直關注演算法資訊理論研究的部分原因,不過還沒有看到演算法資訊理論究竟如何影響這個領域。
4、從生命中學習
也許澤尼爾的團隊已經朝著發現這種影響邁出了第一步,但是為了使他們的工作的應用程序更具有普遍的現實性,他們將首先在其他類型的搜索問題上測試他們的方法。威斯康星大學麥迪遜分校(University of Wisconsin, Madison)的理論神經科學家拉里薩阿爾巴塔基斯(Larissa Albantakis)說:儘管如此,在基於結構的限制方面有很好的觀點,自然界在很多方面都存有結構,如果你把它作為出發點,那麼嘗試所有可能的一致突變就有點可笑了,任何對我們有意義的事情都是以某種方式構建起來。
儘管斯佩克特仍然懷疑澤尼爾最近的研究是否能超越他所探索的具體問題,但這些概念背後的資訊理論非常有趣,而且可能相當重要。它令人興奮,部分原因是它似乎遙不可及。也許同一領域的人沒有意識到某些見解。畢竟,演算法信息利用了許多基因編程專家可能沒有納入他們工作的概論,包括進化的開放性。斯佩克特說:我有一種強烈的感覺,這裡有重要的東西等待我們挖掘,目前研究與實際應用之間仍有很大差距。把生命看作不斷發展迭代的軟體想法非常有趣,無論是考慮人工生命還是生物生命,都需要具有長遠的目光!
博科園-科學科普|參考期刊文獻:《皇家學會開放科學》等
文:Jordana Cepelewicz/Quanta magazine/Quanta Newsletter
DOI:10.1098/rsos.180399
DOI:10.1145 / 3071178.3071330
DOI:doi.org/10.1007/3-540-45355-5_28
博科園-傳遞宇宙科學之美
※宇宙大碰撞:索非亞揭開了星團的神秘組成!
※新發現的超新星會改寫爆炸恆星的起源理論?
TAG:博科園 |