如何快速打造出公安領域的智能系統

最新 05-11

在人工智慧日漸火熱的今天，各行各業都發生著信息化和智能化的變革。尤其是在行業和企業場景中，以前需要大量人工去查找和比對的工作正在快速被智能系統所代替，在為企業節省大量成本的同時，也因效率提升和決策周期變短等效果帶來巨大收益。因此，各種行業人工智慧的應用正如雨後春筍般的生長。

我們以公共安全行業為例，可以看到正在發生的智能變革：

（1）人臉識別，使得追逃工作能夠有效的開展，攝像頭所到之處，留下面部特徵檔案的嫌犯將無處可遁；

（2）併案分析，將各種筆錄和檔案中不同時間地點具有類似情節的案件自動聚合在一起，併案分析發現更多的線索；

（3）通話關聯分析，基於逃犯過去的通話分布和這些關聯方當前的通話特徵，找到最有可能洗白身份的逃犯；

（4）安全事故預警，對社交網路中的海量用戶的言論進行分析和處理，快速掌握可能導致安全事故的線索並預警；

（5）模式匹配，犯罪現場留下的DNA等生物特徵，能與檔案庫中的預存記錄高效匹配，查找相關人；

（6）智能語音交互，通過語音識別和語音合成，為各種類型的用戶提供智能化的交互手段。

這些代表性的例子，說明人工智慧，使得以前需要大量人工長時間努力的工作，能很短時間甚至實時完成。

那麼，打造一個典型的行業智能系統，通常需要哪些步驟呢？

（1）目標的特徵表示：如果是一個案件，則需要根據案件的類型，定義它的特徵，例如搶劫案件可能包括時間、地點、人數、金額、嫌犯特徵、搶劫對象特徵、逃跑方式、威脅方式、搶劫目標等等；如果是一個電話號碼，則可以把它表示為所有與這個電話號碼通過話的電話號碼及其頻率的列表，如果知曉所通話號碼的身份，還可以進一步的添加被通話者身份欄位；如果是面部圖片，則可以將它表示為界點、邊界、區域等不同類型的紋理和形狀向量。

（2）特徵的抽取：在給目標建立特徵表示模型之後，可以從每個目標的相關數據中抽取這些特徵，將其表示成向量的形式。一般來說，特徵數量越多，效果會越好，但也會帶來計算資源上的壓力，因此，進行主成分分析，或者選擇有代表性的特徵，是常用的手段。

（3）通過機器學習進行預測：在將目標表示為特徵向量之後，僅僅計算這些目標之間的相似性，並進行排序，就能有非常好的實用價值，例如人臉識別和電話網路分析就屬於這一類應用；如果客戶能對機器開展一些監督指導，例如設置推理規則告知何種相似程度可以視為併案的標準，或標註一組能夠併案的數據作為語料，則機器可以自動開展工作，進行分析和預測。

如何打造出具有行業智能的系統？由於人工智慧的不同領域，圖像識別、文本處理和基因模式匹配都有著不同類型的實用方法，我們以文本處理領域的人工智慧為例來進行說明：

a）在核心的演算法層面，特徵的表示以及機器學習的各種演算法，都已經有非常成熟的技術和開源軟體。例如，將通話號碼錶示為向量之後，可以用多種不同的演算法來計算向量之間的相似性，從一個歷史號碼的所有通過話的號碼，以及它們更遠一層的相關通話號碼中，選擇出具有最相似特徵的電話號碼；在案件的併案處理上也是如此，即便基於最簡單的分詞技術將每一篇問詢筆錄處理後聚類，也能一定程度的找到具有類似情節的案件。但是，隨著業務要求的提升，當公安部門要在更細的粒度進行特徵表示和抽取時，例如對盜竊案件，根據盜竊目標的類型進一步細分案件的特徵，此時需要定義和抽取成千上萬的知識點，這是當前具有較大工程難度的環節。

b）在支撐的軟體環節層面，由於公安場景的數據量巨大，甚至可能運行著數百套各種不同的業務系統。因此，數據的治理打通、分散式存儲、大數據的檢索、數據可視化，會成為主要的需求。在分散式存儲、檢索與可視化上，已經有著非常成熟的技術和開源軟體，例如基於Hadoop平台對各種不同類型和特徵的數據都有相應的開源模塊，各種開源的可視化軟體也使得展現結果豐富多樣；而在數據的治理打通層面，則因為行業的知識特性，儘管有一些簡單的數據預處理ETL的支撐，但涉及到文本內容層次的治理時，缺少成熟的技術和產品，使得大數據的實施上存在較大的工程難度，耗費大量的人工和時間。

對於公安行業眾多的信息化和智能化廠商而言，如何快速的根據客戶需求打造行業智能系統呢？如果已經有產品經理和前端開發人員去根據客戶需求打造應用，在數據分析和智能處理的後端，則可以採取如下的方法：

1）在核心的演算法層面，使用NLTK開源軟體來對文本進行基本的處理，使用Scrapy開源軟體對網上數據進行簡單的爬取，使用Scikit－learn和MLlib來調用基本的機器學習演算法；

2）在支撐軟體層面，使用Hadoop開源軟體來分散式的存儲大量數據，使用Hbase開源軟體來存儲關係型的數據，使用ElasticSearch開源軟體來檢索海量的數據，使用Echarts開源軟體來做可視化展現，使用Spark開源軟體來處理流式數據，使用Neo4j開源來作為圖資料庫；

3）在定製化開發環節，文本語義特徵的抽取，與文本欄位有關的數據處理，則需要招聘資深的NLP演算法工程師以及相關的開發和標註人員，或者集成網感至察的文本語義抽取產品 TML KnowledgeCloud和數據治理產品 TML SmartData等商業軟體。

這些開源的軟體的使用有著強大的在線討論社區，也有基於開源軟體的服務公司如Cloudera，成效已經被證明。

TML KnowledgeCloud是南京網感至察信息科技有限公司基於自主研發的TML認知計算平台推出的機器大腦產品，它幫助計算機智能理解各種專業文檔，為各行各業的客戶和合作夥伴提供知識圖譜和認知計算雲服務。對於各行各業的專家學者而言，TML是將它們的經驗知識轉變為計算機自動可以執行的機器大腦的一個平台，他們與網感共同分享這些機器大腦所產生的收益；對於各個行業的開發者和信息化、智能化廠商而言，TML是一個不需要招聘資深的NLP和機器學習工程師，通過簡單的API調用和集成就能具備知識圖譜和認知計算能力的軟晶元。

基於TML KnowledgeCloud，我們過去三年為各類客戶和合作夥伴輸出了知識圖譜建設、知識推理和數據洞察等能力，包括 :

1. 從文本中抽取成千上萬個知識點建立知識圖譜，完成對問詢筆錄、電子病歷、裁判文書、財報公告等業務文檔的深度語義理解；?

2. 基於所積累的數十個行業場景的業務知識圖譜，幫助建立對海量非結構化和半結構化業務數據的深度洞察；?

3. 在各垂直領域內基於知識圖譜和歷史案例庫建立智能預診、智能預判、智能併案等邏輯推理能力，幫助打造行業人工智慧應用；?

我們正將過去多年裡在公安、司法、金融、醫療、製造等多個行業的數十個行業知識圖譜，數萬種語義目標要素和它們之間的數千種關係，逐漸發布，以SAAS方式提供API介面讓廣大開發者免費使用。通過與行業專家的合作共建，TML KnowledgeCloud將在更多的行業和場景提供知識圖譜，輸出語義要素抽取、關聯關係挖掘和邏輯推理預測等多種直接服務於業務的認知計算能力。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 網感至察 的精彩文章:

※如何建立法律領域的人工智慧

TAG:網感至察 |