當前位置:
首頁 > 新聞 > Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

新智元推薦

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

Tim Berners-Lee昨天拿到了2016年度的計算機科學最高獎:圖靈獎。他獲得這個獎,實至名歸。領域中人一直都認為他得獎只是時間問題。

Tim 的一生有兩個偉大的貢獻(當然,他還有很多其他的貢獻):一、互聯世界的文檔,即萬維網(Web)的發明及其規模化的努力,包括 W3C 的工作;二、互聯人類知識的努力,包括語義網(Semantic Web)、互聯數據(Linked Data)、開放數據(Open Data)、知識圖譜(Knowledge Graph)等。第一個貢獻已經廣為人知,第二個貢獻還在發展中,知道的人不多。但是我以為,第二個貢獻將會是比第一個貢獻更大的貢獻。

Tim 也是一位偉大的思想家。他總是從全人類的角度去思考技術問題。普通的設計師從 user 的角度思考問題,偉大的設計師從 human 的角度思考。而 Tim Berners-Lee 是從 humanity 的角度去設計。 可以毫不誇張地說,Tim Berners-Lee 是當今人類神經系統的總設計師。他的工作,在推動歷史的進程。他領先於大多數的工業領袖至少十年在進行布局和推動。他又善於組織和影響,對於學術界和歐美政府的最高層,他都能施加影響一步步地推進具體的實施。

Tim 說過,Web 從來不僅是技術的發明,更多的是一種社會的創造。無論是 HTTP 還是 PageRank,無論是 Wiki 還是 Facebook,人的因素是主導因素。開放、交流、合作,新一代的 Web 的技術,必然還是要以人的需要、長處、局限、價值為出發點。技術只是一小部分,社會模式的變遷才是最根本的。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

在 RPI、MIT 和 W3C 工作期間,筆者有幸近距離和 Tim 一起工作。 Web 和 Semantic Web 是如何興起的?Web 的未來是什麼?我們遇到的困難和可能的出路是什麼?今年1月筆者曾在人民大學做了一次演講。本文基於這次演講,簡單回顧了 Tim 當年對 Web 的設想,和 Web 從文檔互聯走向知識互聯的歷程,並對未來做了一些猜想。

一、Web作為殺手級應用

什麼是殺手級應用?Wikipedia 上的定義說,殺手級應用就是說它能夠使這個應用或技術,從小眾走向大眾,極大地提高它的使用人數的應用。

隨便舉幾個殺手級應用的例子: ATM 機,跟 Web 和人工智慧沒關係,但是我們可以想一想,這是什麼技術的應用?資料庫技術和網路技術。若我們抽象地向我們的外婆解釋,什麼是資料庫?什麼是網路?她根本聽不懂;但是如果你說這有一個機器,你把一張塑料卡片給它,它把錢給你,可能就聽懂了。這就是殺手級應用。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

那還有什麼樣的殺手級應用?Visicalc 有多少人聽說過?70 年代末興起了電子表格技術,電子表格技術是什麼?從純技術角度,可以說電子表格沒有解決什麼實質性問題,電子表格能解決的所有問題,資料庫都能夠解決。70 年代初已經有資料庫了,那到了 70 年代末為什麼又有了電子表格呢?我們想,一個只有初中文化水準的文員,他能夠用好資料庫嗎?那麼在 70 年代末興起的這個電子表格,它要解決的不是面向機器的問題,是面向人的問題,他把原來只有極少數的寫 SQL 能夠享受到的對數據管理的快樂,讓千千萬萬隻有中學文化水平的人,也能夠用到。這是電子表格的意義,所以後來有了 Excel。現在電子表格已經成了百億級的一個大產業。

那麼再看另外一個,這個是什麼?

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這是世界上第一個圖形界面的瀏覽器。第一個 Web Server 是 1990 年 Tim Berners-Lee 在 CERN 寫出來的,那個時候已有一個瀏覽器,但是那瀏覽器是命令行的瀏覽器( line by line 的 browser),那種瀏覽器是只有非常少數的人可以用的。到了 1992 年的時候,另外一個工程師寫出來這個瀏覽器 Erwise,圖形界面基於 X-window 的。到了 1993 年的時候,有了 Mosaic 後來演變成了 Netscape,這也是一個殺手級應用。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

我們想一下,實際上 Internet 並不新,60 年代就已經有 Internet;超文本也不新,80 年代就已經有了超文本,但為什麼一直到了 1994 年(那年全球也只有 3000 個網站),Web 才真正成為一個現象級的工具?因為在這之前沒有這樣的殺手級應用。Browser 就是這樣的殺手級應用,所以說我們看 1993 年有了 Mosaic,1994 年就有了 Amazon,這不是偶然的,這都是殺手級應用對一個領域帶來的衝擊。

當我們回來看 Web 本身,它也是一個殺手級應用,實際上 Web 是網際網路( Internet) 的一個應用,但現在在大眾媒體上,可能大家不會區別。大家都說「互聯網」,大家談互聯網的時候,通常實際上在談萬維網(Web)。那麼底層的從數據鏈路層,到 IP 層,到傳輸層到表現層,大家在日常的媒體中是不會看到這些區別的,Web 只是最上面的這麼一些協議:HTTP,HTML,URI。這三個協議構成了 Web的基礎。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

Web 本身是怎麼產生的?實際上這些技術在 Tim 發明 Web 十幾年之前都已經有了。為什麼到了 1991 年的時候,才出現 Tim Berners-Lee 這個人把它們匯總在一起呢?

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這個我們現在看到的是號稱是世界上第一個 Web Page。這是在大概 1990 年聖誕節的時候, Tim Berners-Lee 在他自己的個人電腦上寫的。當時這個 Web 只有他自己那一台電腦在看。從他寫了第一個 Web 頁面,到後來歐洲原子能組織內部,他花了差不多一年時間,說服所有人來用 Web。大部分人都不相信那個東西有什麼價值。後來他又足足花了兩年的時間,到全世界各地去做路演,才有非常少的人相信這個東西是有價值的。

TED 上有一個演講——我是怎麼拒絕 Tim Berners-Lee 的,就是有一個人在一個會議上,遇到了 Tim Berners-Lee,Tim Berners-Lee 告訴他,你現在做的東西(百科全書應用)很好,你應該把這個百科全書應用和網際網路結合在一起。他很困惑,他說我為什麼要把這個東西和網際網路結合在一起,這會有任何價值嗎?(相關TED Talk 鏈接:Ian Ritchie 我是怎麼拒絕 Tim Berners—Lee ? ;Tim Berners-Lee ) 這不是一個偶然的例子,如果你去看《Weaving the Web》這本書的話,書里講了很多。

二、Web的三個目標

一個新的技術在剛剛誕生的時候,都是不完備的,絕大多數人在那個時候,是沒有辦法理解這個技術能帶來怎樣顛覆性的價值。Web 是這種,Semantic Web 是這樣,知識圖譜也是這樣,所以我們在這個發展的過程中,經歷了很多被人瞧不起,被人認為沒價值的日子。這本書我強烈地推薦大家每個人都去看一看,不僅僅是研究 Web 的人要看,我認為這本書對於人工智慧的研究,對於互聯網的工程師、產品經理、運營經理,也是有很大的意義的。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

我看完這本書就思考一個問題,什麼叫知識?知識是怎麼產生的,如果我們想構造一個知識的互聯的網路,或者知識的管理的網路,最重要的事情是什麼?Tim Berners-Lee 的答案就是互聯、開放和自由。這本書也有中文版 《編織-萬維網之父》,這本書已經絕版了,在淘寶上有賣的。

Tim Berners-Lee 在這本書里,講了他在1990 年的時候——實際上 是1989 年——在一個 proposal 裡面講了三件事情,當時他很樂觀,他認為給他六個月時間,他可以把這些事情都幹了。事實是已經過去 25 年了,這些事情還沒有做完。這三件事情是什麼呢?

第一件事情就是一個互聯的文檔的 Web,一個 Document Web,這件事情他確實做完了,然後之後又花了 15 年時間去完善。

第二件事情叫 Semantic Web,我們每一個文檔背後實際上都承載著人的知識。我們如何讓這個文檔不僅僅被人來閱讀,而且也可以被機器來閱讀呢?知識是什麼,知識是一種結構,當我們有一種機器可讀的結構的時候,我們實際上就有了一個知識的網路。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

從 1999 年開始,他開始力推 Semantic Web。到了 2001 年的時候,他和 Jim Hendler,Ora Lassila 一起,在《科學美國人》上面發了這篇文章闡述了一個理念,如果我們有了結構化數據,用知識去標註的網路應用的能力話,我們能夠實現怎樣神奇的一些應用。實際上他描述的很多東西,我們現在已經實現了,比如像 Siri,IBM Watson, 就是 Tim Berners-Lee 在十幾年前就已經描述的一些設想。當時認為是科幻,現在已成現實。

他 proposal 的第三部分,說我們有了知識以後還要怎麼樣?最重要的是人,Web 在往前走的每一步,它核心的思考,它真正能夠帶來的知識和最有價值的數據,不是機器,而是人產生出來的。所以如何讓機器、人、知識能夠關聯在一起,這是 Tim Berners-Lee 最主要的思考。他在設計裡面提出來,我們不但要能夠讀這些數據,更重要的是我們能夠讓人非常容易地去創造這些數據。當時還沒有 Wiki 這個概念,但他描述了這樣一個系統,實際上就是一個 Semantic Wiki 系統。

我們花了25年的時間,大概實現了他的第一個目標,然後第二個目標實現了一半。所以 Web 只走完了上半場,還有下半場要走。

三、從萬維網到語義網

我們在剩下的 25 年時間內,從現在起到 2040 年,要實現另外一半目標。在《科學美國人》這篇文章裡面,Tim Berners-Lee 再一次表達了他充分的樂觀。我們剛才提到了,他第一次說花六個月時間就可以實現那個 proposal,最後證明他把這個任務的困難程度低估了一個數量級。同樣,在這篇文章里,他再次低估了這個任務的複雜程度,他認為我們十年之內就能實現 Semantic Web ,但事實上沒有做到。到了 2007 年、2008 年的時候,整個行業的人就已經發現,可能我們要花 30 年的時間,才能實現這個夢想,在 2007 年感覺 30 年後很遠,但現在已經到 2017 年了,我們發現其實這個估計是挺靠譜的一件事情,我們下面細說為什麼這個估計是靠譜的。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這是我從 W3C 的前語義網技術負責人 Ivan Herman 的一個 slides 裡面偷來的。他是 2010 年講的,在 2005 年的時候,他認為這個技術已經發展到什麼程度呢?就是在前面這種 Innovator 這種層面,到了2010年的時候,他認為已經到了 Early Adopters ,他這個估計應該說是對的。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這樣一個曲線對於正常的學科的發展是沒有問題的,大家肯定也在其他地方看到過的,叫技術成熟度曲線。一般情況下,一開始一個技術沒有什麼人知道,過了一段時間之後,大家覺得這個技術太牛逼了,然後到了一個頂點;後來頂點過去以後,到達低谷,覺得你是騙子,大家開始失望,沒有人投資了;經過一段時間的冬天,然後後來發現其實也不全然是欺騙,還是有合理的因素的,慢慢往回爬,最後爬到一個 majority,到成熟市場,通常「正常」的技術是這麼來爬的。那麼對於」正常」的技術,到了這個階段的時候,就是一次冬天回去之後,往上爬的這個階段,殺手級應用就會出現了。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

但是我們知道人工智慧技術不是「正常技術」,人工智慧的技術的成熟曲線是這個樣子的,差不多每過十年,我們要被人罵一次,我們是騙子。

那麼具體來看,對於知識圖譜技術,我們已經被人罵了幾次。實際上其實這個曲線前面還有幾次,我就沒有畫了,其實從 60 年代開始就有了。我們就從 80 年代開始講,那時候我們有一大堆叫 Lisp Machine,當時是認為如果我們有了 Lisp,如果我們有了 Prolog,我們可以把整個人類所有的知識都建模。有個公司叫 Cyc,它就是努力想把整個人類的知識全部用邏輯表達出來。到了 80 年代末的時候,日本人被忽悠得很厲害,說我們要有五代機。所以這個時候就產生了很大的一個泡沫,果不其然到了90年代中期的時候,大家說騙子。那個時候的博士生是非常悲摧的。

然後到了 90 年代末,慢慢地又開始往前跑了,當時 Guha 在蘋果發明了 RSS,後來 1997 年的時候在蘋果發明出來了 RDF。後來到了 1999 年的時候,RDF 成為了行業標準,然後DARPA(美國國防高級研究計劃局) 成立了 DAML 工作小組。到了 2000 年前後的時候有了 OWL,整個語義網有了這樣一種新希望。大家又開始覺得太厲害了,人類又要毀滅了,但事實證明又不是。所以大概從 2003 年、2004 年往後走,大家發現這個技術沒有想的那麼牛逼,很多問題解決不了。所以開始往下走。到了 2010 年的時候,雖然我們已經做了非常多的很好的工作,比如 Freebase 這樣的工作,但當時基本上 Semantic Web 畢業的博士生找不到本職工作。

四、從語義網到知識圖譜

到了 2012 年的時候,突然又開始加速往前跑,以谷歌的知識圖譜(Knowledge Graph)的發布作為一個標誌。但實際上如果我們拋開媒體對我們的報導,跟這個行業真正的發展其實是沒有什麼關係的,這個行業的技術是一直往前走的,哪怕在「低谷」的這個階段,也是有非常多的紮實的工作,在不斷地推進。像 DBpedia 這樣的系統在 2006 年、2007 年做出來的時候,大多數人壓根認識不到它的價值。後來 Watson 發現只有用這個技術,才能夠把最後 10個百分點的 precision 提高上去,沒有其他任何技術能夠做到,這時候這個技術才進入了媒體。但在進入媒體之前大量的工作,一直都在水下醞釀。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這個是 Nova Spivack (Twine、Bottlenose的CEO) 在 2008 年的時候做的一個預測,在 2008 年大家已經發現了,這個 Tim Berners-Lee 的預測是不準的,我們低估了這個任務的困難程度。所以他把 Web 分為 Web 1、2、3、4,Web 2 就是 Social Web,當時發現 Social Web 已經很成功了。他認為到了 2020 年的時候,我們能夠實現 Semantic Web。那麼現在我們在 2017 年,還有三年時間到 2020 年,我們能實現 Semantic Web 嗎?好像也不能,所以他也低估了這個問題的困難程度。他認為 Web 4.0 是 Intelligent Web,我認為這個設想還是比較靠譜的,但是對於 Semantic Web 這個規劃,還是有點樂觀了。

這件事情其實要分為兩步來走,要把這個分成 Data 和 Intelligence 兩件事情分開來講。我剛才提到的一個低潮里,不僅僅是那些小公司在這個低潮裡面活不下去,大公司也活不下去。並不是說這些大公司垮台了,谷歌、雅虎當時都有很多 Semantic Web Activities,表現是大部分的這些這種項目最終都失敗了。比如說谷歌在 2008 年、2009 年,Rich Snippets 這個項目無疾而終——當然到後來有一部分演化成了 Schema.org ,所以不是完全的失敗。這樣的項目還有非常非常多,包括當時的標準化的努力,RDF 和 OWL 從某種程度上來說是成功的。但是從 2007 年、2008 年到 2010 年的 RIF 和 OWL2,可以說是不成功的。當時的大部分的這些公司最後也都完蛋了,像 Hakia,Powerset,Twine,這些當時這種網紅級的公司,最後也基本上沒有一個能活到 2010 年之後的,所以在這個時候大家是很被鄙視的。

但是到了 2012 年前後的時候,我們又實現反彈了。實際上很多工作在 2009 年、2010 年就已經開始,比如 2009 年的時候,在 Tim Berners-Lee 推動下,我們有了開放政府數據。2006 年的時候,我們有了互聯數據,也是 Tim Berners-Lee 推動的。2010 年的時候我們有了圖資料庫,我們終於在 RDF 資料庫之外,有了另外一個選擇。到了2010 年、2011 年是兩個標誌性的項目,一個是Siri,一個是 IBM Waston 。打了兩劑強心針,大家發現這東西真的有用。

到了 2011 年的時候,Palantir 實現了 2.5 億美元的收入。以前從來沒有一個用語義技術的公司,能夠做到這一點。大家發現這個東西不僅是技術上有用,在經濟上也有用了。Palantir 是一個本體編輯器。現在它的年收入是 20 億美金。

2012 年的時候這是最大的一件事情,谷歌把 Freebase 給買了之後,改了一個名字叫 Knowledge Graph。谷歌的示範效果是顯而易見的。大家一看谷歌用了,所有人都跟著用,微軟有了Trinity,當時搜狐、百度國內一堆互聯網公司,每一家都開始搞 Knowledge Graph。

2013 年的時候美國這邊有了 Kensho,一個金融的知識圖譜的應用,到了 2015 年的時候,知識圖譜這個詞開始變為媒體的寵兒了。2016 年的時候,中國市場上出現各種對話機器人,智能音箱,我覺得可能有上百家,這個背後都是要用到知識圖譜。這一塊最早應該是 2012 年的時候,出門問問。這樣的公司也非常非常多。

五、知識圖譜翻身的背後

所以我們現在可以看到知識圖譜技術,已經在過去的五年當中,完美打了一個翻身仗。但是冰凍三尺非一日之寒,就是說我們能夠從被人鄙視到大家都覺得這個技術有一點用,實際上是這十幾年背後整個領域不懈的努力,才有了今天這一點點的成績。我們今年看到的知識圖譜,實際上是許許多多的上千個各種不同的項目,在過去十幾年裡面,不停實驗,最後留下的一點點精華。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

比如說上圖,Bestbuy 的商品元數據。其實目前這一堆截圖,都是我在 2008 年到 2010 年做的事情。但當時做的很多事情,中國現在還沒有。其實在每一個領域,我認為在這裡面,在中國如果把這個模式複製過來都是有機會的。Bestbuy 它每一個商品描述頁,這是我們人看到的頁面,那麼這是機器看到的頁面,它背後有一個 Ontology,叫 GoodRelations。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這個是 Facebook,這是我們大家能夠看到的頁面,它背後的 Metadata 是什麼呢?這個是 Open Graph。這個是LinkedIn, 他的背後有 Microformat 的 Metadata。這個是 SlideShare, 這個背後是 RDFa 格式的 Metadata。這是 IMDb,這背後是另外一種 Microformat 的 Metadata。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這是 Sig.ma,它實際上是一個 Semantic Data Aggregation 的 Portal,目前這個網站已經下線了。對網上能夠找到的每一個實體(entity),比如說人、公司,這每一個都是實體,它把每一個實體的數據做了一個聚合,當時這上面有我的一個頁面,圖例是關於我個人簡歷的一個聚合。

我們不僅有各種所謂直接創造出來的語義數據,還有各種通過現有的數據,映射過來的數據。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這是我們當時在 RPI 做的一個工作。就是有大量的政府的數據,他們基本上是用電子表格(spreadsheet)的方式來發布的,我們在上面做了各種規劃整理的工作,把它變成了 RDF 的格式,然後提高了數據質量。這是它當時的原始的數據格式,就是在美國政府 Data.gov 這個網站上面,美國各個部門,從聯邦政府開始,強制公開數據的發布。然後這上面的數據,大部分都是很髒的數據,它背後的各種數據集,基本上是未經整理的。所以在 RPI,我們就做了這樣一個整理。Jim Hendler 是領導者,他發揮了對白宮的影響力。丁力是第一個項目經理。Tim Berners-Lee 影響了英國首相,推動了英國類似的項目。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這是 Open Link 這個公司,他們發布的資料庫叫 Virtuoso,是它的一個應用,可以把資料庫數據變成 RDF。後來在 W3C,也有一個標準叫 R2R,就是 Relational Database to RDF這樣一個標準,規範的是我們如何把現在大量已經存在的結構化數據放到網上來。講一句題外話,當初 Tim Berners-Lee 在發明 Web 的時候,大多數人不相信這個東西有用,他做了兩件事情,第一個是他把 FTP 映射到 Web上來了,第二個是他把 CERN 的電話號碼本映射到Web 上來了,就是充分地利用現有的數據來 bootstrap 一個新技術。所以剛才提到的從 Excel,從電子表格到結構化數據,把它放在網上,是我們趕超的一些小技巧。我們(文因互聯)現在做的,把股轉書裡面的那些 PDF 文件裡面的數據放在網上,其實也是類似的。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這是我今天早上剛剛截的知乎上面的頁面。左邊是人看到的知乎的頁面,右邊是機器看到的知乎的頁面,這是什麼?其實這是 HTML5 的一些 Semantic Annotations。

所以我們看到的絕大多數的網頁,只要你用心看看它的 HTML 源代碼,你都可以發現背後的 Semantic Metadata,所以從數據的角度來說,Semantic Web 其實是已經實現了。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

我就舉個更具體的小例子吧,這四個哥們,是我在 MIT 的時候認識的,2010 年的1月份,我們有一個叫 Linked Data Entrepreneurship Program,也是 Tim Berners-Lee 組織的,就是一些學生做一些培訓,在三天之內教他們RDF 是什麼樣子等等,然後讓他們去找一個應用,自己去做一些小例子。然後這四個哥們,就做了一個菜單的應用,他說我能不能幫助餐館,把他們點菜的菜單給放到網上去。聽起來好像是個很簡單的主意,但他們執行得非常好,這四個人也很有企業家的素質,他們很快就拿到了投資,最後融到了 400 萬美元的風投。他們做了兩年之後,把這個公司給賣掉了,賣了 8000 萬美元,這是我親眼看到的一個用語義技術來創造財富的例子。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

當然這樣的例子還有很多,在美國做 Semantic Search 的公司還有 200 家,在每一個垂直領域裡都有,這上面列的是一些大公司,但實際上小的公司比這多得多,要多一個數量級。所以我們回過頭來看,在 2007 年的時候 Gartner 做了這個預測,他預測到 2017 年,majority of Web pages are decorated with some form of semantic hypertext。這個確實我們已經做到了。

這個翻身的過程中,Tim Berners-Lee 起到了巨大的作用。2006 年的鏈接數據,2009 年的政府開放數據,W3C 一直發揮的社區引導作用,都是 Tim 直接領導的結果。可以說,除了他,也沒有第二個人在領域出現執行偏差的時候,能夠發揮這麼大的影響力來實事求是地糾正。他不斷地總結,在他的 Design Issues 里,不斷反思 Web 發展的一些原則性問題。這些思考通常指導著之後多年的實踐。

六、五個問題

好,通過這些例子我們學到了什麼?在之前的 15 年當中,我們經歷了被人鄙視的階段,我們也在最近五六年裡面打了一個翻身仗。那我們現在應該反思一些基本的問題,

第一個問題,就是設計和總結的問題,其實這也是工程領域裡可能是一個通用的規則,就是一個有用的有實踐價值的系統,通常是總結出來的,而非設計出來的。當在 2001 年的時候,我們去設想基於邏輯的一整套的表現方式的時候,我們是跟現實脫節的。所以那一套東西被現實無情地打臉了。2006 年之後我們從數據出發(在 Tim Berners-Lee 的引導之下 ),自下向上,我們看現實世界能有什麼樣的數據。Wikipedia 上的 infobox,這是人類現在已經有的行為,我們就把這個 infobox 裡面的一些半結構化的數據提取出來變成 DBpedia,DBpedia 後來被應用到其他產品裡面去,提高了問答系統的效率,這是自底向上由我們總結出來的,而不是誰一開始設計出來的。好的東西都是總結出來的而不是設計出來的。

第二,面向Semantic,還是面向Web?這也是一個典型的學派之爭。在 Semantic Web 這個領域裡面有面向Semantic和面向Web這兩個學派,Jim Hendler 有一個很著名的演講叫 Two Towers,一個是 Semantic Tower,另一個是 Web Tower。到底什麼是新的東西?Frank van Harmelen 說:The novel part of the Semantic Web is not the Semantics, but the Web。只有 Web 是我們加入這個領域的,什麼是 Web?Web 就是互聯,就是資源的互聯和流通,而不是知識表現。如果我們現在去看知識圖譜的話,觀察的重點不應該是所謂的分布式表示、機器學習、深度學習,也不應該是所謂的邏輯表達,這些都很重要,但不是這個領域最關鍵的問題。這個領域最關鍵的問題是,如何能夠讓知識在網路上流動起來,如何讓人能夠更方便的去應用知識、去表達知識,這才是最重要的,人才是這個領域最重要的東西。這就是 Web,Web 是人不是機器。

第三個就是面向方法,還是面向問題? Semantic Web 或者知識圖譜,到底是一堆 formulas 還是 questions?我們到底是拿著鎚子去找釘子,還是我們現在已經有一個需求。我們要的需求是什麼,是釘子嗎?不是,我們的需求是牆上的洞,這才是我們的需求。所以我們要面向需求去解決問題,而不是面向我們現在的方法來解決問題。當我們在面向問題的時候,我們發現要解決任何一個問題,都不是一種方法能夠解決掉的。我們回去看 Siri 或者 Watson 的整個架構裡面,是用了人工智慧的多種方法,綜合在一起取長補短才解決了這個問題的,沒有任何一種單獨的方法,無論是統計的方法,深度學習的方法,或者邏輯的方法,可能解決我們現在面臨的問題。只有三種方法綜合起來之後才可能。我經常會遇到有人會問我這個問題,他說:我現在要做一個知識圖譜的應用,該不該用圖資料庫。問這個問題本身是第一個危險信號,我是不是該用圖資料庫是第二個危險信號。如果要從這種角度來問問題的話,那麼這個項目 90% 會失敗,因為它不是從問題出發,而是從方法出發。這是我們一定要避免的風險。

第四個就是面向大問題還是小問題。我們一開始想的其實都是一些大問題,語義搜索是一個很大的問題。當然我們一開始講設想,就像 Tim Berners-Lee 在《科學美國人》那篇文章裡面所設想的問題,實際上是非常大的問題,作為一個領域的規劃這是必要的。但是當我們在實踐的時候,我們難以從很大的問題入手。我最近也跟一些公司的人聊過,他們的這種項目大部分最後都是幹了兩年、三年之後無疾而終,包括我同一期的那些同學們、同事們就是在 2006 年、2007 年、2008 年畢業的那幫博士們,他們進了公司之後,大部分當然是轉行了,但有少部分很幸運的,去到一些公司,它們說我們有個 Semantic Web Group,然後我進去做了,兩年或者三年之後,這個組就解散掉了,為什麼?你想一個企業,它一個 VP 升職的期限是多少?兩年到三年。他兩年到三年之內不成功,必須滾蛋。如果是一個大項目,它不能夠為這個企業的主營業務上創造收入的話,是不可能持續下去的。國內也有一個非常大的一線互聯網公司,要做金融知識圖譜。去年年初的時候,從券商招了一個朋友過去,很興奮說有 30 個人做這件事情,到了年底的時候,回來很沮喪地說,這個項目解散了,只剩下5個人,做不了。因為一年之內沒有辦法創造收入。那麼當我們開始去做一個大的項目,面向一個大問題的時候,我們就會不可避免地遇到這種創新者的窘境。Semantic Web 技術是一個顛覆性技術,它很難從一個大的通用的系統開始,它一定是從非常小的,從幾個人就可以做的事情開始,所以我們要面向小任務,而不是大任務來做。

最後一點,如何贏得人心?我從學術界出來進入企業界的時候,我感受到的最大的刺激是什麼?就是錢的多少。當我們在學校裡面的時候,比如說我們花很長的時間寫個 proposal,成功率是多少,在美國的自然基金委員會項目是二十分之一,能拿到多少錢?30萬美元,才兩百多萬人民幣,現在國內的一個剛畢業的小孩,他可能一個天使項目就一千萬人民幣了。這個區別在哪裡?我覺得一些科學家在某種程度上來說,缺少了 show 的能力,All business is show business。我們這種 Semantic Web 或者知識圖譜這種領域,不是一個完全的科學的領域,而是一個應用的領域。如果我們不能夠面向 VC, Funding Agency,或者大眾解釋清楚,用一些好的項目來做好 PR 的話,這個領域是不可能發展起來的。當初 IBM Watson 在開始做的時候,實際上他們玩了很多小花招,比如說他們做出來之後,他們找誰去做測試呢?國會議員,他們請國會議員來跟他們的系統來一起進行 PK,然後贏得了國會議員。實際上這是個非常好的 PR。Tim Berners-Lee 當初推廣 Web 上花的力氣,要比他開發 Web 多多了。他後來推廣語義網,去 TED 大喊「Raw Data Now!」,也是充分發揮了「show」的能力。要向 Tim 學習。

七、Web的下半場

這是上面我思考的五個問題。其實還有更多的問題,因為整個領域往前發展,雖然已經過去25年了,但未來還有很漫長的路,從 Tim Berners-Lee 一開始的設想,到我們最終把它實現,這種互聯整個世界的知識的願望,可能還要經過一代人的時間,等到今天的很多年輕人的孩子也像你們這麼大的時候,我們能夠實現這個願望。

我把 Web 從 1990 年開始的 50 年的歷史,分為 5 個階段,或者說五代,如下圖。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

前面這 2.5 代 Web,我們可以說已經實現了。就是第一代的 Web,文檔的 Web;第二代的 Web,社會 Web;還有半個 Data Web,現在以知識圖譜的方式。

這裡我要稍微吐一點槽,我覺得 Social Web 這個詞,中文裡頭把它翻譯成社交網路是不對的。因為 Social 反映的是社會,它不僅僅是社交關係,而是整個社會生活的映射,它不僅僅是人和人之間誰認識誰這樣一種關係。這是 Web 從文檔走向真實社會的第一步。後面這 30 年時間,我們都將不斷地深化這個過程。

過去的這幾年,大家聽到的最多的一個詞是大數據。大數據和 Web 的結合,就產生了這樣一個 Data Web。我們的數據已經多到了人力完全沒有辦法處理的程度,所以說我們才需要用機器來幫助我們提高效率。比如說今日頭條是什麼,今日頭條就是文檔的過濾,文檔的分發,這個是我們要用機器來做的。我們最近也在和一些社區合作,用人工智慧的技術,來幫助社區進行管理,進行各種社區的信噪比的提升。所以這是機器可以幫助我們很好地完成的,比如說像搜索,谷歌和百度現在都有他們的 Semantic Search。又比如說像動作代理的形成,Siri 就是這種。還有智能音箱也是這樣一種個人代理,像 Amazon 的 echo。在金融上,我們可以有自動化報告、智能投顧。所有這些東西都是在有了結構化數據之上,我們可以進行的一些自動化。

再下面一步,我們自動化之後就是智能化,在自動化這個層面上,我們用比較學術化的話來講,就是我們可以處理好這種實體的,屬性查找和短程關係的查詢,在這個層面上,是 2020 年之前我們能夠完成的事情。但是我們想真正做好長程關係的查找,包括規則的建模,包括策略的建模,包括真正的所謂語義級的這種自然語言級的問答,我覺得兩三年時間,三四年時間肯定是不夠的,肯定還要十幾年的時間,到 2030 年的時候,可能能實現這一點。那到了這一點我們就有了 Intelligent Web。我們現在做金融應用,我們的設想就是到了 2030 年的時候,真正的那些高級的分析師,他們一半以上工作都可以被機器取代了。

最後一步就是走到了 2040 年的時候,我把它稱為 Meme 的網路,實際上也就是 Tim Berners-Lee 講的社會機器,就是把整個人類社會的知識能夠互聯在一起存在。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這裡涉及到一個概念叫 Social Machine,這個概念是 Tim Berners-Lee 1999 年的時候提出來的。這個概念是說,我們用機器和人在一起構成一個系統,人擅長做什麼呢?人擅長做有創造性的工作,機器擅長做那種機械性的,反覆的簡單重複勞動。我們把人和機器在一起構造成一個完整的系統,叫 Social Machine。上面這本書是 Tim 的好友、我的導師 Jim Hendler 寫的新書《Social Machines》,具體闡述了他的思考的落地。在長期,文因互聯就是一間致力於實踐 Social Machine 的公司。

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

這個圖總結了我上面所說的,在我看來 Web 分為五個階段,對應於 Tim Berners-Lee 講的三件大的任務上。Tim Berners-Lee 大概 30 年前就開始思考這些問題。從他的規劃來看,從他當時的 proposal 開始可能要花 50 年的時間,到 2040 年,把整個這樣一個願景實現。

Web 是一個偉大的征程。Tim Berners-Lee 獲得圖靈獎,不僅是他個人的榮譽,也是對萬維網、語義網界千千萬萬科學家和工程師的認可。Web 的下半場,互聯世界的知識,有可能取得比過去 25 年更大的成績。互聯、開放和自由的精神終將衝破一切障礙,融合全人類為一體。

1994 年,Tim Berners-Lee 離開歐洲到美國去建立 W3C。他說:「我知道我必須到互聯網的引力中心去」。今天,這個引力中心正在向中國轉移。Web 的下半場,中國無疑將發揮更大的作用。

(本文由 文因互聯 授權轉載,特此感謝!作者聯繫方式:baojie@memect.co)

Web 50 年|從 Tim Berners Lee 的圖靈獎說起,到達 Web 5.0 之前我們還要經歷什麼

3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「重磅」谷歌發布TPU論文,75位聯合作者,GPU迎來最強勁對手
8.3億留不住你,前谷歌工程師獎金凸顯無人車領域熱度
《紐約客》深度長文:當人工智慧遇上醫生
漆遠:小數據學習和模型壓縮存挑戰,場景成為 AI 技術發展關鍵
微軟CNTK 2.0版本發布,支持結合Azure GPU在雲端使用

TAG:新智元 |

您可能感興趣

10年Amazon Web Services 總結得到的 10 個經驗教訓
從404到默認頁面,通過.cshtml拿到webshel??l
【第942期】圖說 WebAssembly
淺從System.Web.Http.Owin的HttpMessageHandlerAdapter看適配器模式
如何在 Webpack 2 中使用 tree-shaking
導演 Marc Webb:《The Amazing Spider-Man 2》不是爛片!
ASP.NET Web Forms-Hashtable 對象
ASP.NET Web Forms-SortedList 對象
一個時代的終結:ImageNet 競賽 2017 是最後一屆,WebVision 競賽或接棒
Http非同步發送之HttpWebRequest的BeginGetResponse
Bruce Weber 操刀打造 Louis Vuitton 2017 秋冬系列宣傳廣告
Win10秋季Creators更新將為Edge瀏覽器帶來WebVR特性
asp.net core 2.0 web api基於JWT自定義策略授權
圖像工具包VintaSoftImaging.NET SDK v8.5,新增獨立web服務
ASP.NET Web Forms-Repeater 控制項
Balenciaga 推出全新鞋款 Speed Trainer Gewebe
ASP.NET Web Forms-維持 ViewState
ASP.NET Web Pages-Database 對象
咦,好像可以自己做個webapi框架了-IRouteHandler的使用