Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼
新智元推薦
序
Tim Berners-Lee昨天拿到了2016年度的計算機科學最高獎:圖靈獎。他獲得這個獎,實至名歸。領域中人一直都認為他得獎只是時間問題。
Tim 的一生有兩個偉大的貢獻(當然,他還有很多其他的貢獻):一、互聯世界的文檔,即萬維網(Web)的發明及其規模化的努力,包括 W3C 的工作;二、互聯人類知識的努力,包括語義網(Semantic Web)、互聯數據(Linked Data)、開放數據(Open Data)、知識圖譜(Knowledge Graph)等。第一個貢獻已經廣為人知,第二個貢獻還在發展中,知道的人不多。但是我以為,第二個貢獻將會是比第一個貢獻更大的貢獻。
Tim 也是一位偉大的思想家。他總是從全人類的角度去思考技術問題。普通的設計師從 user 的角度思考問題,偉大的設計師從 human 的角度思考。而 Tim Berners-Lee 是從 humanity 的角度去設計。 可以毫不誇張地說,Tim Berners-Lee 是當今人類神經系統的總設計師。他的工作,在推動歷史的進程。他領先於大多數的工業領袖至少十年在進行布局和推動。他又善於組織和影響,對於學術界和歐美政府的最高層,他都能施加影響一步步地推進具體的實施。
Tim 說過,Web 從來不僅是技術的發明,更多的是一種社會的創造。無論是 HTTP 還是 PageRank,無論是 Wiki 還是 Facebook,人的因素是主導因素。開放、交流、合作,新一代的 Web 的技術,必然還是要以人的需要、長處、局限、價值為出發點。技術只是一小部分,社會模式的變遷才是最根本的。
在 RPI、MIT 和 W3C 工作期間,筆者有幸近距離和 Tim 一起工作。 Web 和 Semantic Web 是如何興起的?Web 的未來是什麼?我們遇到的困難和可能的出路是什麼?今年1月筆者曾在人民大學做了一次演講。本文基於這次演講,簡單回顧了 Tim 當年對 Web 的設想,和 Web 從文檔互聯走向知識互聯的歷程,並對未來做了一些猜想。
一、Web作為殺手級應用
什麼是殺手級應用?Wikipedia 上的定義說,殺手級應用就是說它能夠使這個應用或技術,從小眾走向大眾,極大地提高它的使用人數的應用。
隨便舉幾個殺手級應用的例子: ATM 機,跟 Web 和人工智慧沒關係,但是我們可以想一想,這是什麼技術的應用?資料庫技術和網路技術。若我們抽象地向我們的外婆解釋,什麼是資料庫?什麼是網路?她根本聽不懂;但是如果你說這有一個機器,你把一張塑料卡片給它,它把錢給你,可能就聽懂了。這就是殺手級應用。
那還有什麼樣的殺手級應用?Visicalc 有多少人聽說過?70 年代末興起了電子表格技術,電子表格技術是什麼?從純技術角度,可以說電子表格沒有解決什麼實質性問題,電子表格能解決的所有問題,資料庫都能夠解決。70 年代初已經有資料庫了,那到了 70 年代末為什麼又有了電子表格呢?我們想,一個只有初中文化水準的文員,他能夠用好資料庫嗎?那麼在 70 年代末興起的這個電子表格,它要解決的不是面向機器的問題,是面向人的問題,他把原來只有極少數的寫 SQL 能夠享受到的對數據管理的快樂,讓千千萬萬隻有中學文化水平的人,也能夠用到。這是電子表格的意義,所以後來有了 Excel。現在電子表格已經成了百億級的一個大產業。
那麼再看另外一個,這個是什麼?
這是世界上第一個圖形界面的瀏覽器。第一個 Web Server 是 1990 年 Tim Berners-Lee 在 CERN 寫出來的,那個時候已有一個瀏覽器,但是那瀏覽器是命令行的瀏覽器( line by line 的 browser),那種瀏覽器是只有非常少數的人可以用的。到了 1992 年的時候,另外一個工程師寫出來這個瀏覽器 Erwise,圖形界面基於 X-window 的。到了 1993 年的時候,有了 Mosaic 後來演變成了 Netscape,這也是一個殺手級應用。
我們想一下,實際上 Internet 並不新,60 年代就已經有 Internet;超文本也不新,80 年代就已經有了超文本,但為什麼一直到了 1994 年(那年全球也只有 3000 個網站),Web 才真正成為一個現象級的工具?因為在這之前沒有這樣的殺手級應用。Browser 就是這樣的殺手級應用,所以說我們看 1993 年有了 Mosaic,1994 年就有了 Amazon,這不是偶然的,這都是殺手級應用對一個領域帶來的衝擊。
當我們回來看 Web 本身,它也是一個殺手級應用,實際上 Web 是網際網路( Internet) 的一個應用,但現在在大眾媒體上,可能大家不會區別。大家都說「互聯網」,大家談互聯網的時候,通常實際上在談萬維網(Web)。那麼底層的從數據鏈路層,到 IP 層,到傳輸層到表現層,大家在日常的媒體中是不會看到這些區別的,Web 只是最上面的這麼一些協議:HTTP,HTML,URI。這三個協議構成了 Web的基礎。
Web 本身是怎麼產生的?實際上這些技術在 Tim 發明 Web 十幾年之前都已經有了。為什麼到了 1991 年的時候,才出現 Tim Berners-Lee 這個人把它們匯總在一起呢?
這個我們現在看到的是號稱是世界上第一個 Web Page。這是在大概 1990 年聖誕節的時候, Tim Berners-Lee 在他自己的個人電腦上寫的。當時這個 Web 只有他自己那一台電腦在看。從他寫了第一個 Web 頁面,到後來歐洲原子能組織內部,他花了差不多一年時間,說服所有人來用 Web。大部分人都不相信那個東西有什麼價值。後來他又足足花了兩年的時間,到全世界各地去做路演,才有非常少的人相信這個東西是有價值的。
TED 上有一個演講——我是怎麼拒絕 Tim Berners-Lee 的,就是有一個人在一個會議上,遇到了 Tim Berners-Lee,Tim Berners-Lee 告訴他,你現在做的東西(百科全書應用)很好,你應該把這個百科全書應用和網際網路結合在一起。他很困惑,他說我為什麼要把這個東西和網際網路結合在一起,這會有任何價值嗎?(相關TED Talk 鏈接:Ian Ritchie 我是怎麼拒絕 Tim Berners—Lee ? ;Tim Berners-Lee ) 這不是一個偶然的例子,如果你去看《Weaving the Web》這本書的話,書里講了很多。
二、Web的三個目標
一個新的技術在剛剛誕生的時候,都是不完備的,絕大多數人在那個時候,是沒有辦法理解這個技術能帶來怎樣顛覆性的價值。Web 是這種,Semantic Web 是這樣,知識圖譜也是這樣,所以我們在這個發展的過程中,經歷了很多被人瞧不起,被人認為沒價值的日子。這本書我強烈地推薦大家每個人都去看一看,不僅僅是研究 Web 的人要看,我認為這本書對於人工智慧的研究,對於互聯網的工程師、產品經理、運營經理,也是有很大的意義的。
我看完這本書就思考一個問題,什麼叫知識?知識是怎麼產生的,如果我們想構造一個知識的互聯的網路,或者知識的管理的網路,最重要的事情是什麼?Tim Berners-Lee 的答案就是互聯、開放和自由。這本書也有中文版 《編織-萬維網之父》,這本書已經絕版了,在淘寶上有賣的。
Tim Berners-Lee 在這本書里,講了他在1990 年的時候——實際上 是1989 年——在一個 proposal 裡面講了三件事情,當時他很樂觀,他認為給他六個月時間,他可以把這些事情都幹了。事實是已經過去 25 年了,這些事情還沒有做完。這三件事情是什麼呢?
第一件事情就是一個互聯的文檔的 Web,一個 Document Web,這件事情他確實做完了,然後之後又花了 15 年時間去完善。
第二件事情叫 Semantic Web,我們每一個文檔背後實際上都承載著人的知識。我們如何讓這個文檔不僅僅被人來閱讀,而且也可以被機器來閱讀呢?知識是什麼,知識是一種結構,當我們有一種機器可讀的結構的時候,我們實際上就有了一個知識的網路。
從 1999 年開始,他開始力推 Semantic Web。到了 2001 年的時候,他和 Jim Hendler,Ora Lassila 一起,在《科學美國人》上面發了這篇文章闡述了一個理念,如果我們有了結構化數據,用知識去標註的網路應用的能力話,我們能夠實現怎樣神奇的一些應用。實際上他描述的很多東西,我們現在已經實現了,比如像 Siri,IBM Watson, 就是 Tim Berners-Lee 在十幾年前就已經描述的一些設想。當時認為是科幻,現在已成現實。
他 proposal 的第三部分,說我們有了知識以後還要怎麼樣?最重要的是人,Web 在往前走的每一步,它核心的思考,它真正能夠帶來的知識和最有價值的數據,不是機器,而是人產生出來的。所以如何讓機器、人、知識能夠關聯在一起,這是 Tim Berners-Lee 最主要的思考。他在設計裡面提出來,我們不但要能夠讀這些數據,更重要的是我們能夠讓人非常容易地去創造這些數據。當時還沒有 Wiki 這個概念,但他描述了這樣一個系統,實際上就是一個 Semantic Wiki 系統。
我們花了25年的時間,大概實現了他的第一個目標,然後第二個目標實現了一半。所以 Web 只走完了上半場,還有下半場要走。
三、從萬維網到語義網
我們在剩下的 25 年時間內,從現在起到 2040 年,要實現另外一半目標。在《科學美國人》這篇文章裡面,Tim Berners-Lee 再一次表達了他充分的樂觀。我們剛才提到了,他第一次說花六個月時間就可以實現那個 proposal,最後證明他把這個任務的困難程度低估了一個數量級。同樣,在這篇文章里,他再次低估了這個任務的複雜程度,他認為我們十年之內就能實現 Semantic Web ,但事實上沒有做到。到了 2007 年、2008 年的時候,整個行業的人就已經發現,可能我們要花 30 年的時間,才能實現這個夢想,在 2007 年感覺 30 年後很遠,但現在已經到 2017 年了,我們發現其實這個估計是挺靠譜的一件事情,我們下面細說為什麼這個估計是靠譜的。
這是我從 W3C 的前語義網技術負責人 Ivan Herman 的一個 slides 裡面偷來的。他是 2010 年講的,在 2005 年的時候,他認為這個技術已經發展到什麼程度呢?就是在前面這種 Innovator 這種層面,到了2010年的時候,他認為已經到了 Early Adopters ,他這個估計應該說是對的。
這樣一個曲線對於正常的學科的發展是沒有問題的,大家肯定也在其他地方看到過的,叫技術成熟度曲線。一般情況下,一開始一個技術沒有什麼人知道,過了一段時間之後,大家覺得這個技術太牛逼了,然後到了一個頂點;後來頂點過去以後,到達低谷,覺得你是騙子,大家開始失望,沒有人投資了;經過一段時間的冬天,然後後來發現其實也不全然是欺騙,還是有合理的因素的,慢慢往回爬,最後爬到一個 majority,到成熟市場,通常「正常」的技術是這麼來爬的。那麼對於」正常」的技術,到了這個階段的時候,就是一次冬天回去之後,往上爬的這個階段,殺手級應用就會出現了。
但是我們知道人工智慧技術不是「正常技術」,人工智慧的技術的成熟曲線是這個樣子的,差不多每過十年,我們要被人罵一次,我們是騙子。
那麼具體來看,對於知識圖譜技術,我們已經被人罵了幾次。實際上其實這個曲線前面還有幾次,我就沒有畫了,其實從 60 年代開始就有了。我們就從 80 年代開始講,那時候我們有一大堆叫 Lisp Machine,當時是認為如果我們有了 Lisp,如果我們有了 Prolog,我們可以把整個人類所有的知識都建模。有個公司叫 Cyc,它就是努力想把整個人類的知識全部用邏輯表達出來。到了 80 年代末的時候,日本人被忽悠得很厲害,說我們要有五代機。所以這個時候就產生了很大的一個泡沫,果不其然到了90年代中期的時候,大家說騙子。那個時候的博士生是非常悲摧的。
然後到了 90 年代末,慢慢地又開始往前跑了,當時 Guha 在蘋果發明了 RSS,後來 1997 年的時候在蘋果發明出來了 RDF。後來到了 1999 年的時候,RDF 成為了行業標準,然後DARPA(美國國防高級研究計劃局) 成立了 DAML 工作小組。到了 2000 年前後的時候有了 OWL,整個語義網有了這樣一種新希望。大家又開始覺得太厲害了,人類又要毀滅了,但事實證明又不是。所以大概從 2003 年、2004 年往後走,大家發現這個技術沒有想的那麼牛逼,很多問題解決不了。所以開始往下走。到了 2010 年的時候,雖然我們已經做了非常多的很好的工作,比如 Freebase 這樣的工作,但當時基本上 Semantic Web 畢業的博士生找不到本職工作。
四、從語義網到知識圖譜
到了 2012 年的時候,突然又開始加速往前跑,以谷歌的知識圖譜(Knowledge Graph)的發布作為一個標誌。但實際上如果我們拋開媒體對我們的報導,跟這個行業真正的發展其實是沒有什麼關係的,這個行業的技術是一直往前走的,哪怕在「低谷」的這個階段,也是有非常多的紮實的工作,在不斷地推進。像 DBpedia 這樣的系統在 2006 年、2007 年做出來的時候,大多數人壓根認識不到它的價值。後來 Watson 發現只有用這個技術,才能夠把最後 10個百分點的 precision 提高上去,沒有其他任何技術能夠做到,這時候這個技術才進入了媒體。但在進入媒體之前大量的工作,一直都在水下醞釀。
這個是 Nova Spivack (Twine、Bottlenose的CEO) 在 2008 年的時候做的一個預測,在 2008 年大家已經發現了,這個 Tim Berners-Lee 的預測是不準的,我們低估了這個任務的困難程度。所以他把 Web 分為 Web 1、2、3、4,Web 2 就是 Social Web,當時發現 Social Web 已經很成功了。他認為到了 2020 年的時候,我們能夠實現 Semantic Web。那麼現在我們在 2017 年,還有三年時間到 2020 年,我們能實現 Semantic Web 嗎?好像也不能,所以他也低估了這個問題的困難程度。他認為 Web 4.0 是 Intelligent Web,我認為這個設想還是比較靠譜的,但是對於 Semantic Web 這個規劃,還是有點樂觀了。
這件事情其實要分為兩步來走,要把這個分成 Data 和 Intelligence 兩件事情分開來講。我剛才提到的一個低潮里,不僅僅是那些小公司在這個低潮裡面活不下去,大公司也活不下去。並不是說這些大公司垮台了,谷歌、雅虎當時都有很多 Semantic Web Activities,表現是大部分的這些這種項目最終都失敗了。比如說谷歌在 2008 年、2009 年,Rich Snippets 這個項目無疾而終——當然到後來有一部分演化成了 Schema.org ,所以不是完全的失敗。這樣的項目還有非常非常多,包括當時的標準化的努力,RDF 和 OWL 從某種程度上來說是成功的。但是從 2007 年、2008 年到 2010 年的 RIF 和 OWL2,可以說是不成功的。當時的大部分的這些公司最後也都完蛋了,像 Hakia,Powerset,Twine,這些當時這種網紅級的公司,最後也基本上沒有一個能活到 2010 年之後的,所以在這個時候大家是很被鄙視的。
但是到了 2012 年前後的時候,我們又實現反彈了。實際上很多工作在 2009 年、2010 年就已經開始,比如 2009 年的時候,在 Tim Berners-Lee 推動下,我們有了開放政府數據。2006 年的時候,我們有了互聯數據,也是 Tim Berners-Lee 推動的。2010 年的時候我們有了圖資料庫,我們終於在 RDF 資料庫之外,有了另外一個選擇。到了2010 年、2011 年是兩個標誌性的項目,一個是Siri,一個是 IBM Waston 。打了兩劑強心針,大家發現這東西真的有用。
到了 2011 年的時候,Palantir 實現了 2.5 億美元的收入。以前從來沒有一個用語義技術的公司,能夠做到這一點。大家發現這個東西不僅是技術上有用,在經濟上也有用了。Palantir 是一個本體編輯器。現在它的年收入是 20 億美金。
2012 年的時候這是最大的一件事情,谷歌把 Freebase 給買了之後,改了一個名字叫 Knowledge Graph。谷歌的示範效果是顯而易見的。大家一看谷歌用了,所有人都跟著用,微軟有了Trinity,當時搜狐、百度國內一堆互聯網公司,每一家都開始搞 Knowledge Graph。
2013 年的時候美國這邊有了 Kensho,一個金融的知識圖譜的應用,到了 2015 年的時候,知識圖譜這個詞開始變為媒體的寵兒了。2016 年的時候,中國市場上出現各種對話機器人,智能音箱,我覺得可能有上百家,這個背後都是要用到知識圖譜。這一塊最早應該是 2012 年的時候,出門問問。這樣的公司也非常非常多。
五、知識圖譜翻身的背後
所以我們現在可以看到知識圖譜技術,已經在過去的五年當中,完美打了一個翻身仗。但是冰凍三尺非一日之寒,就是說我們能夠從被人鄙視到大家都覺得這個技術有一點用,實際上是這十幾年背後整個領域不懈的努力,才有了今天這一點點的成績。我們今年看到的知識圖譜,實際上是許許多多的上千個各種不同的項目,在過去十幾年裡面,不停實驗,最後留下的一點點精華。
比如說上圖,Bestbuy 的商品元數據。其實目前這一堆截圖,都是我在 2008 年到 2010 年做的事情。但當時做的很多事情,中國現在還沒有。其實在每一個領域,我認為在這裡面,在中國如果把這個模式複製過來都是有機會的。Bestbuy 它每一個商品描述頁,這是我們人看到的頁面,那麼這是機器看到的頁面,它背後有一個 Ontology,叫 GoodRelations。
這個是 Facebook,這是我們大家能夠看到的頁面,它背後的 Metadata 是什麼呢?這個是 Open Graph。這個是LinkedIn, 他的背後有 Microformat 的 Metadata。這個是 SlideShare, 這個背後是 RDFa 格式的 Metadata。這是 IMDb,這背後是另外一種 Microformat 的 Metadata。
這是 Sig.ma,它實際上是一個 Semantic Data Aggregation 的 Portal,目前這個網站已經下線了。對網上能夠找到的每一個實體(entity),比如說人、公司,這每一個都是實體,它把每一個實體的數據做了一個聚合,當時這上面有我的一個頁面,圖例是關於我個人簡歷的一個聚合。
我們不僅有各種所謂直接創造出來的語義數據,還有各種通過現有的數據,映射過來的數據。
這是我們當時在 RPI 做的一個工作。就是有大量的政府的數據,他們基本上是用電子表格(spreadsheet)的方式來發布的,我們在上面做了各種規劃整理的工作,把它變成了 RDF 的格式,然後提高了數據質量。這是它當時的原始的數據格式,就是在美國政府 Data.gov 這個網站上面,美國各個部門,從聯邦政府開始,強制公開數據的發布。然後這上面的數據,大部分都是很髒的數據,它背後的各種數據集,基本上是未經整理的。所以在 RPI,我們就做了這樣一個整理。Jim Hendler 是領導者,他發揮了對白宮的影響力。丁力是第一個項目經理。Tim Berners-Lee 影響了英國首相,推動了英國類似的項目。
這是 Open Link 這個公司,他們發布的資料庫叫 Virtuoso,是它的一個應用,可以把資料庫數據變成 RDF。後來在 W3C,也有一個標準叫 R2R,就是 Relational Database to RDF這樣一個標準,規範的是我們如何把現在大量已經存在的結構化數據放到網上來。講一句題外話,當初 Tim Berners-Lee 在發明 Web 的時候,大多數人不相信這個東西有用,他做了兩件事情,第一個是他把 FTP 映射到 Web上來了,第二個是他把 CERN 的電話號碼本映射到Web 上來了,就是充分地利用現有的數據來 bootstrap 一個新技術。所以剛才提到的從 Excel,從電子表格到結構化數據,把它放在網上,是我們趕超的一些小技巧。我們(文因互聯)現在做的,把股轉書裡面的那些 PDF 文件裡面的數據放在網上,其實也是類似的。
這是我今天早上剛剛截的知乎上面的頁面。左邊是人看到的知乎的頁面,右邊是機器看到的知乎的頁面,這是什麼?其實這是 HTML5 的一些 Semantic Annotations。
所以我們看到的絕大多數的網頁,只要你用心看看它的 HTML 源代碼,你都可以發現背後的 Semantic Metadata,所以從數據的角度來說,Semantic Web 其實是已經實現了。
我就舉個更具體的小例子吧,這四個哥們,是我在 MIT 的時候認識的,2010 年的1月份,我們有一個叫 Linked Data Entrepreneurship Program,也是 Tim Berners-Lee 組織的,就是一些學生做一些培訓,在三天之內教他們RDF 是什麼樣子等等,然後讓他們去找一個應用,自己去做一些小例子。然後這四個哥們,就做了一個菜單的應用,他說我能不能幫助餐館,把他們點菜的菜單給放到網上去。聽起來好像是個很簡單的主意,但他們執行得非常好,這四個人也很有企業家的素質,他們很快就拿到了投資,最後融到了 400 萬美元的風投。他們做了兩年之後,把這個公司給賣掉了,賣了 8000 萬美元,這是我親眼看到的一個用語義技術來創造財富的例子。
當然這樣的例子還有很多,在美國做 Semantic Search 的公司還有 200 家,在每一個垂直領域裡都有,這上面列的是一些大公司,但實際上小的公司比這多得多,要多一個數量級。所以我們回過頭來看,在 2007 年的時候 Gartner 做了這個預測,他預測到 2017 年,majority of Web pages are decorated with some form of semantic hypertext。這個確實我們已經做到了。
這個翻身的過程中,Tim Berners-Lee 起到了巨大的作用。2006 年的鏈接數據,2009 年的政府開放數據,W3C 一直發揮的社區引導作用,都是 Tim 直接領導的結果。可以說,除了他,也沒有第二個人在領域出現執行偏差的時候,能夠發揮這麼大的影響力來實事求是地糾正。他不斷地總結,在他的 Design Issues 里,不斷反思 Web 發展的一些原則性問題。這些思考通常指導著之後多年的實踐。
六、五個問題
好,通過這些例子我們學到了什麼?在之前的 15 年當中,我們經歷了被人鄙視的階段,我們也在最近五六年裡面打了一個翻身仗。那我們現在應該反思一些基本的問題,
第一個問題,就是設計和總結的問題,其實這也是工程領域裡可能是一個通用的規則,就是一個有用的有實踐價值的系統,通常是總結出來的,而非設計出來的。當在 2001 年的時候,我們去設想基於邏輯的一整套的表現方式的時候,我們是跟現實脫節的。所以那一套東西被現實無情地打臉了。2006 年之後我們從數據出發(在 Tim Berners-Lee 的引導之下 ),自下向上,我們看現實世界能有什麼樣的數據。Wikipedia 上的 infobox,這是人類現在已經有的行為,我們就把這個 infobox 裡面的一些半結構化的數據提取出來變成 DBpedia,DBpedia 後來被應用到其他產品裡面去,提高了問答系統的效率,這是自底向上由我們總結出來的,而不是誰一開始設計出來的。好的東西都是總結出來的而不是設計出來的。
第二,面向Semantic,還是面向Web?這也是一個典型的學派之爭。在 Semantic Web 這個領域裡面有面向Semantic和面向Web這兩個學派,Jim Hendler 有一個很著名的演講叫 Two Towers,一個是 Semantic Tower,另一個是 Web Tower。到底什麼是新的東西?Frank van Harmelen 說:The novel part of the Semantic Web is not the Semantics, but the Web。只有 Web 是我們加入這個領域的,什麼是 Web?Web 就是互聯,就是資源的互聯和流通,而不是知識表現。如果我們現在去看知識圖譜的話,觀察的重點不應該是所謂的分布式表示、機器學習、深度學習,也不應該是所謂的邏輯表達,這些都很重要,但不是這個領域最關鍵的問題。這個領域最關鍵的問題是,如何能夠讓知識在網路上流動起來,如何讓人能夠更方便的去應用知識、去表達知識,這才是最重要的,人才是這個領域最重要的東西。這就是 Web,Web 是人不是機器。
第三個就是面向方法,還是面向問題? Semantic Web 或者知識圖譜,到底是一堆 formulas 還是 questions?我們到底是拿著鎚子去找釘子,還是我們現在已經有一個需求。我們要的需求是什麼,是釘子嗎?不是,我們的需求是牆上的洞,這才是我們的需求。所以我們要面向需求去解決問題,而不是面向我們現在的方法來解決問題。當我們在面向問題的時候,我們發現要解決任何一個問題,都不是一種方法能夠解決掉的。我們回去看 Siri 或者 Watson 的整個架構裡面,是用了人工智慧的多種方法,綜合在一起取長補短才解決了這個問題的,沒有任何一種單獨的方法,無論是統計的方法,深度學習的方法,或者邏輯的方法,可能解決我們現在面臨的問題。只有三種方法綜合起來之後才可能。我經常會遇到有人會問我這個問題,他說:我現在要做一個知識圖譜的應用,該不該用圖資料庫。問這個問題本身是第一個危險信號,我是不是該用圖資料庫是第二個危險信號。如果要從這種角度來問問題的話,那麼這個項目 90% 會失敗,因為它不是從問題出發,而是從方法出發。這是我們一定要避免的風險。
第四個就是面向大問題還是小問題。我們一開始想的其實都是一些大問題,語義搜索是一個很大的問題。當然我們一開始講設想,就像 Tim Berners-Lee 在《科學美國人》那篇文章裡面所設想的問題,實際上是非常大的問題,作為一個領域的規劃這是必要的。但是當我們在實踐的時候,我們難以從很大的問題入手。我最近也跟一些公司的人聊過,他們的這種項目大部分最後都是幹了兩年、三年之後無疾而終,包括我同一期的那些同學們、同事們就是在 2006 年、2007 年、2008 年畢業的那幫博士們,他們進了公司之後,大部分當然是轉行了,但有少部分很幸運的,去到一些公司,它們說我們有個 Semantic Web Group,然後我進去做了,兩年或者三年之後,這個組就解散掉了,為什麼?你想一個企業,它一個 VP 升職的期限是多少?兩年到三年。他兩年到三年之內不成功,必須滾蛋。如果是一個大項目,它不能夠為這個企業的主營業務上創造收入的話,是不可能持續下去的。國內也有一個非常大的一線互聯網公司,要做金融知識圖譜。去年年初的時候,從券商招了一個朋友過去,很興奮說有 30 個人做這件事情,到了年底的時候,回來很沮喪地說,這個項目解散了,只剩下5個人,做不了。因為一年之內沒有辦法創造收入。那麼當我們開始去做一個大的項目,面向一個大問題的時候,我們就會不可避免地遇到這種創新者的窘境。Semantic Web 技術是一個顛覆性技術,它很難從一個大的通用的系統開始,它一定是從非常小的,從幾個人就可以做的事情開始,所以我們要面向小任務,而不是大任務來做。
最後一點,如何贏得人心?我從學術界出來進入企業界的時候,我感受到的最大的刺激是什麼?就是錢的多少。當我們在學校裡面的時候,比如說我們花很長的時間寫個 proposal,成功率是多少,在美國的自然基金委員會項目是二十分之一,能拿到多少錢?30萬美元,才兩百多萬人民幣,現在國內的一個剛畢業的小孩,他可能一個天使項目就一千萬人民幣了。這個區別在哪裡?我覺得一些科學家在某種程度上來說,缺少了 show 的能力,All business is show business。我們這種 Semantic Web 或者知識圖譜這種領域,不是一個完全的科學的領域,而是一個應用的領域。如果我們不能夠面向 VC, Funding Agency,或者大眾解釋清楚,用一些好的項目來做好 PR 的話,這個領域是不可能發展起來的。當初 IBM Watson 在開始做的時候,實際上他們玩了很多小花招,比如說他們做出來之後,他們找誰去做測試呢?國會議員,他們請國會議員來跟他們的系統來一起進行 PK,然後贏得了國會議員。實際上這是個非常好的 PR。Tim Berners-Lee 當初推廣 Web 上花的力氣,要比他開發 Web 多多了。他後來推廣語義網,去 TED 大喊「Raw Data Now!」,也是充分發揮了「show」的能力。要向 Tim 學習。
七、Web的下半場
這是上面我思考的五個問題。其實還有更多的問題,因為整個領域往前發展,雖然已經過去25年了,但未來還有很漫長的路,從 Tim Berners-Lee 一開始的設想,到我們最終把它實現,這種互聯整個世界的知識的願望,可能還要經過一代人的時間,等到今天的很多年輕人的孩子也像你們這麼大的時候,我們能夠實現這個願望。
我把 Web 從 1990 年開始的 50 年的歷史,分為 5 個階段,或者說五代,如下圖。
前面這 2.5 代 Web,我們可以說已經實現了。就是第一代的 Web,文檔的 Web;第二代的 Web,社會 Web;還有半個 Data Web,現在以知識圖譜的方式。
這裡我要稍微吐一點槽,我覺得 Social Web 這個詞,中文裡頭把它翻譯成社交網路是不對的。因為 Social 反映的是社會,它不僅僅是社交關係,而是整個社會生活的映射,它不僅僅是人和人之間誰認識誰這樣一種關係。這是 Web 從文檔走向真實社會的第一步。後面這 30 年時間,我們都將不斷地深化這個過程。
過去的這幾年,大家聽到的最多的一個詞是大數據。大數據和 Web 的結合,就產生了這樣一個 Data Web。我們的數據已經多到了人力完全沒有辦法處理的程度,所以說我們才需要用機器來幫助我們提高效率。比如說今日頭條是什麼,今日頭條就是文檔的過濾,文檔的分發,這個是我們要用機器來做的。我們最近也在和一些社區合作,用人工智慧的技術,來幫助社區進行管理,進行各種社區的信噪比的提升。所以這是機器可以幫助我們很好地完成的,比如說像搜索,谷歌和百度現在都有他們的 Semantic Search。又比如說像動作代理的形成,Siri 就是這種。還有智能音箱也是這樣一種個人代理,像 Amazon 的 echo。在金融上,我們可以有自動化報告、智能投顧。所有這些東西都是在有了結構化數據之上,我們可以進行的一些自動化。
再下面一步,我們自動化之後就是智能化,在自動化這個層面上,我們用比較學術化的話來講,就是我們可以處理好這種實體的,屬性查找和短程關係的查詢,在這個層面上,是 2020 年之前我們能夠完成的事情。但是我們想真正做好長程關係的查找,包括規則的建模,包括策略的建模,包括真正的所謂語義級的這種自然語言級的問答,我覺得兩三年時間,三四年時間肯定是不夠的,肯定還要十幾年的時間,到 2030 年的時候,可能能實現這一點。那到了這一點我們就有了 Intelligent Web。我們現在做金融應用,我們的設想就是到了 2030 年的時候,真正的那些高級的分析師,他們一半以上工作都可以被機器取代了。
最後一步就是走到了 2040 年的時候,我把它稱為 Meme 的網路,實際上也就是 Tim Berners-Lee 講的社會機器,就是把整個人類社會的知識能夠互聯在一起存在。
這裡涉及到一個概念叫 Social Machine,這個概念是 Tim Berners-Lee 1999 年的時候提出來的。這個概念是說,我們用機器和人在一起構成一個系統,人擅長做什麼呢?人擅長做有創造性的工作,機器擅長做那種機械性的,反覆的簡單重複勞動。我們把人和機器在一起構造成一個完整的系統,叫 Social Machine。上面這本書是 Tim 的好友、我的導師 Jim Hendler 寫的新書《Social Machines》,具體闡述了他的思考的落地。在長期,文因互聯就是一間致力於實踐 Social Machine 的公司。
這個圖總結了我上面所說的,在我看來 Web 分為五個階段,對應於 Tim Berners-Lee 講的三件大的任務上。Tim Berners-Lee 大概 30 年前就開始思考這些問題。從他的規劃來看,從他當時的 proposal 開始可能要花 50 年的時間,到 2040 年,把整個這樣一個願景實現。
Web 是一個偉大的征程。Tim Berners-Lee 獲得圖靈獎,不僅是他個人的榮譽,也是對萬維網、語義網界千千萬萬科學家和工程師的認可。Web 的下半場,互聯世界的知識,有可能取得比過去 25 年更大的成績。互聯、開放和自由的精神終將衝破一切障礙,融合全人類為一體。
1994 年,Tim Berners-Lee 離開歐洲到美國去建立 W3C。他說:「我知道我必須到互聯網的引力中心去」。今天,這個引力中心正在向中國轉移。Web 的下半場,中國無疑將發揮更大的作用。
(本文由 文因互聯 授權轉載,特此感謝!作者聯繫方式:baojie@memect.co)
3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。
※「重磅」谷歌發布TPU論文,75位聯合作者,GPU迎來最強勁對手
※8.3億留不住你,前谷歌工程師獎金凸顯無人車領域熱度
※《紐約客》深度長文:當人工智慧遇上醫生
※漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵
※微軟CNTK 2.0版本發布,支持結合Azure GPU在雲端使用
TAG:新智元 |
※10年Amazon Web Services 總結得到的 10 個經驗教訓
※從404到默認頁面,通過.cshtml拿到webshel??l
※【第942期】圖說 WebAssembly
※淺從System.Web.Http.Owin的HttpMessageHandlerAdapter看適配器模式
※如何在 Webpack 2 中使用 tree-shaking
※導演 Marc Webb:《The Amazing Spider-Man 2》不是爛片!
※ASP.NET Web Forms-Hashtable 對象
※ASP.NET Web Forms-SortedList 對象
※一個時代的終結:ImageNet 競賽 2017 是最後一屆,WebVision 競賽或接棒
※Http非同步發送之HttpWebRequest的BeginGetResponse
※Bruce Weber 操刀打造 Louis Vuitton 2017 秋冬系列宣傳廣告
※Win10秋季Creators更新將為Edge瀏覽器帶來WebVR特性
※asp.net core 2.0 web api基於JWT自定義策略授權
※圖像工具包VintaSoftImaging.NET SDK v8.5,新增獨立web服務
※ASP.NET Web Forms-Repeater 控制項
※Balenciaga 推出全新鞋款 Speed Trainer Gewebe
※ASP.NET Web Forms-維持 ViewState
※ASP.NET Web Pages-Database 對象
※咦,好像可以自己做個webapi框架了-IRouteHandler的使用