百鍊智能姚從磊:在互聯網公開信息中,為一億人物建立全息檔案
全國各行業的銷售大概有 8000 萬人,他們每天都面臨著同樣的問題:我的客戶在哪裡,我如何能接觸到我的客戶。而百鍊的思路是,利用互聯網公開信息來解決這一問題,只不過需要非常深度的提取與推理。」百鍊智能的 CTO 姚從磊這樣介紹他們的產品所解決的問題。
成立半年以來,這家主要成員來自北大和清華的人工智慧公司已經拿到了總額超過千萬元的天使投資,而他們的產品,是一個在前人工智慧時代,乃至前計算機時代就必不可少的存在:檔案。
八月,機器之心來到了百鍊智能,不同於大多數扎堆在五道口與中關村的人工智慧創業公司,他們將地址定在了鬧中取靜的北京朝陽東二環附近,「這裡離我們的客戶更近」,CTO 姚從磊說。我們聊了聊百鍊提供的「基於公開信息的動態全息檔案」里包含哪些信息,如何生成,又是如何在場景里獲得應用的。
機器之心:資料顯示百鍊智能希望提供「基於公開信息的動態全息檔案」,能否詳細介紹一下這個概念?
百鍊希望完成的「基於公開信息的動態全息檔案」,是利用公開互聯網信息建立的以機構和人物為核心的知識圖譜。
全息檔案是常見於商業調查中的一個詞,通常指用多維度的信息對機構和個人進行的刻畫,「檔案」體現了信息的權威性和信度,「全息」則強調了全時間線與多維度覆蓋。「基於公開信息」是指所有的信息都是能夠通過爬蟲,從 公開互聯網中獲取的信息,「動態」意味著檔案具有時效性,能夠跟隨公開信息的變化而進行及時的變更。
機器之心:全息檔案中都包含哪些維度的信息?
對於公司來說,首先是公司的簡介,第二是公司的產品與業務線,第三是其核心團隊。核心團隊會不限於工商信息中的相關人員,而是全公司具有決策權的人員,以組織結構圖的形式體現出來。
除了上述這些基本信息之外,爬取的欄位並不是一開始就確定好的、一成不變的。一開始,我們根據自己的產品需求去定義,然而隨著 B 端客戶逐漸增加,待爬取的欄位也隨著爬取的過程逐漸擴充,並逐步達到穩定。
對於人物來說,首先是人物介紹,圖片,時間經歷(timeline),他/她在公開場合發表過的觀點,個人動態,以及公開的同鄉、同學、同事、同參加商業活動等類型的社會關係。
機器之心:如何建立全息檔案?
建立全息檔案的技術框架包括 Web 索引層、知識圖譜層和應用層三部分。
Web 索引層是我們逐步做出的一個「搜索引擎」,每天不斷爬取互聯網中的網頁,留下可能與我們感興趣的機構——我們稱為種子機構——相關的部分,經過爬取、解析、清洗、建立索引等步驟入庫,向上方的知識圖譜層提供介面。
知識圖譜層首先會進行命名實體提取與關係分類。
命名實體提取需要從索引中獲取與種子機構相關的每一個網頁。「種子機構」列表相當於一張在爬取過程中不斷變長的名單。從最大型的央企、上市公司以及各領域中的知名公司、各大知名院校開始,在和它們相關的每一個網頁中,知識圖譜層都會提取出新的命名實體,包括機構、人物,也包括時間、地點。其中尚未出現在「種子機構」名單中的機構,會以迭代循環的方式加入到名單中。而在一個預定長度的窗口內同時出現的任意兩個命名實體,則會對其關係進行分類。
由於網路公開信息是雜亂且可信度存疑的,因此在提取和分類後,系統會對提取出來的命名實體、關係和屬性信息進行清洗,過濾掉錯誤的信息,解決衝突,構建知識圖譜。根據一些事先確定好的規則,系統也會在知識圖譜上進行關係的推理和擴展。例如,兩個人是同一個學校、同一個院系畢業,則二者被定義為具有「同系關係」。再比如,兩個機構的核心團隊成員關係很密切,則視為兩個機構存在密切關係。
機器之心:能否舉例說明實體提取的輸入輸出分別是什麼?
例如,在上文的新聞網頁文本內容中,包含了「鏈家集團」、「融創中國」、「新希望」等機構,以及「左暉」、「孫宏斌」、「張明貴」等人物。我們希望得到的序列標註輸出是,所有非機構和人物的詞,比如「公開」、「資料」等,對應的標籤都是 UNK,而所有機構和人物中的詞,比如「融創」、「中國」等,對應的標籤都是機構和人物的相應類型。
機器之心:能否具體說明選用的實體提取與關係分類的技術解決方案?
實體提取/關係分類的解決方案有兩種。一種是經典的管道式(pipeline),首先用序列標註的思路來解決命名實體提取問題,再用分類的思路來解決實體關係提取問題。另一種是將實體提取和關係提取統一表述為序列標註問題,用序列標註的解決思路(LSTM+CNN)來統一處理兩個問題。
為了確保知識圖譜的高質量和可產品化,我們使用了優化後的管道式的處理邏輯:即,在實體提取之後,利用基於第三方數據源訓練的分類器剔除錯誤的實體,以保證在進入到關係提取之前,實體準確率在 95% 以上。
我們的實體提取與分類框架如下圖所示:
框架的輸入是經過基礎分詞的詞序列,以及其中一些詞對應的 HTML 標籤信息,包括超鏈接、字體信息和顏色信息等。每一個詞經過詞嵌入(word embedding)擴展為詞向量後,與 HTML 標籤信息一起組成了完整代表每一個詞的向量。詞向量經過 BiLSTM 層,利用 BiLSTM 的雙向序列建模能力,捕捉一個詞與前後詞序列的相關關係,將每一個詞擴展為包含了上下文信息的高維向量。最後,把高維向量輸入直鏈 CRF 層(Linear-chain CRF)層,輸出每一個詞的對應標籤。
詞嵌入向量和 HTML 標籤向量中擁有豐富的決策所需的信息,而通過整合 BiLSTM 全面刻畫上下文時序信息的能力和 CRF 的序列標註建模能力,上述框架的表達能力是非常高的。
機器之心:在實體提取和關係分類的基礎上繼續進行推理的目的是?
我們將推理機制稱為「時空碰撞」。比如兩個公司的負責人,並沒有代表各自公司在公開場合有交集,但是他們分別於 1999 年和 2000 年加入清華電子系的一個特定實驗室,那麼我們會認為他們之間有比較強的關聯關係。
通過時空碰撞,我們可以為上一步基於事實的知識圖譜建立許多新的邊,讓關係圖譜更加細緻與密集。
推理工作的難點在於分散式索引:當知識圖譜規模變大後,理論上每一個新增的機構和人物都需要和現有圖譜之中的所有已知機構和人物進行關係計算和推理,但是這會讓計算量指數級的增加。因此我們需要比較好的索引技術,能夠快速地定位與新增的公司與個人真正相關的部分節點,以及因為新節點的接入而關係發生變化的原節點。
機器之心:能否給出一些「動態全息檔案」的應用場景?
公司現在主要在做銷售場景。
我們正在和某著名快消公司進行合作。該公司正在面向企業客戶推廣一種新零售解決方案,因此它的銷售團隊希望告訴銷售員,應該去當前區域內的哪家公司進行推廣、和哪位負責人聯繫進行推廣。
針對第一個問題,我們從公司的全息檔案中利用所在地理位置、規模、員工平均年齡、收入水平、學歷水平和企業風險等信息,查找切分出「公司規模相對較大、福利較好,願意接受新零售方案,同時員工平均年齡較低、平均收入較高,是特定產品的消費者」這樣的一部分。
針對第二個問題,我們從公開信息中找到公司的行政方面的負責人是誰,告訴銷售,這位是你需要聯繫的負責購買決策的關鍵人士,並提供觸達該關鍵人物的關係路徑。
除此之外,我們也在打磨一個面向銷售的線上產品。這個產品能夠在短時間內綜合各種公開互聯網信息,繪製公司組織架構圖,定位關鍵負責人。同時,找到能夠連接特定銷售與特定的負責人之間的中間人,讓銷售能夠通過中間人的信任背書與負責人建立聯繫。
機器之心:選擇做全息檔案的原因?
首先,現在互聯網的信息規模是十幾年前的幾百倍,很多信息出現在互聯網上,變成可以發現。其次,許多技術,尤其是 NLP 技術的發展,使得從大量非結構化信息中抽取有效結構化信息的難度降低。
另一方面,全國各行業的銷售人員大概有 8000 萬,即使能夠覆蓋到 30%,也是一個非常龐大的規模。而且我們的整套「全息檔案」的技術與服務的模式是可以擴展的,不止局限於銷售場景,還有很多其他的場景可以應用。
機器之心:「動態全息檔案」期望涵蓋多少公司與個人?
一開始我們會覺得「多多益善」,但是逐漸我們發現,一份好的「動態全息檔案」更多應該是場景驅動的、領域驅動的。
因此我們主要從金融、教育、醫療和快消這些領域入手,選擇具有一定規模的、所處領域比較活躍的公司。成立以來,現在我們覆蓋的企業數量在 100 萬左右,人員超過 1000 萬。而按照我們的統計與估計,全國符合條件的公司多達數百萬家。一家數百人規模的公司中,擁有決策權的需要覆蓋的人數大約在數十人左右。除此之外,我們還要覆蓋「如何能夠找到一個特定的人」的關係鏈上的所有人,綜合起來,大約需要覆蓋 1 億人。
※CMU計算機學院院長Andrew Moore宣布即將離職
※資源 | 這是一份非常全面的開源數據集,你,真的不想要嗎?
TAG:機器之心 |