智能時代安全領域的巨變，從反欺詐、汽車、主機到法律

新聞 04-02

雷鋒網AI 科技評論按：3 月 30 日 - 31日，AITech 峰會在深圳龍崗區成功舉辦。

本次會議以配合國家新一代人工智慧發展規劃實施，支撐人工智慧產業技術協同創新，加強人工智慧領域的國內外技術交流為目的，由深圳市人民政府指導，深圳市龍崗區人民政府、中關村視聽產業技術創新聯盟、新一代人工智慧產業技術創新戰略聯盟主辦，深圳龍崗智能視聽研究院承辦。雷鋒網作為獨家戰略合作媒體對整個會議議程進行了全方位現場內容的詳細報導。

為期兩天的會議包括兩場主論壇和四場分論壇，分別為：

主論壇一（3 月 30 日上午）

分論壇（一）：智能技術與標準及 IEEE Fellow 論壇（3 月 30 日下午）

分論壇（二）：超高清與 VR 技術論壇（3 月 30 日下午）

主論壇二（3 月 31 日上午）

分論壇（三）：人工智慧與安全論壇（3 月 31 日下午）

分論壇（四）：人工智慧投融資論壇（3 月 31 日下午）

本文內容為雷鋒網對人工智慧與安全論壇的詳細報道。其他內容詳見：主論壇一、主論壇二、分論壇（一）、分論壇（二）、分論壇（四）。

在人工智慧與安全論壇中，分別由深信服科技、慧安金科、360、百度安全實驗室、北京頂象、阿里雲等企業安全人員，以及北京師範大學、電子科技大學的安全專家以及國家工業信息安全發展研究中心的人員圍繞人工智慧時代的技術安全、反欺詐、人工智慧相關法律、智能駕駛安全等方面做了詳細解讀。下面為詳細內容：

1、智安全的機遇和挑戰

古亮，深信服科技副總裁兼首席技術專家

古亮首先談到了人工智慧的機遇。他展示了人工智慧的三次熱潮。前兩次多為學術研究主導，多是市場宣傳層面；而最後一次則以商業需求為主，多是商業模式層面。此外無論是美國、加拿大、英國、法國，還是中國，都制定了相應的發展規劃，做出了政策上的支持和規範。這對智能安全來說是難得的機遇，也是極大的挑戰。

古亮以深信服為例。他首先介紹了深信服科技的基本理念，發展、業務圖譜等，隨後他提出深信服在智能安全上的三個安全理念：

可視是安全的基礎：他認為傳統業務的邊界已經變得模糊。對這些業務的安全，如果無法看見就無法進行有效保護。

安全技術專項持續監測和快速響應：任何安全防禦都會被攻破，所以要提供一系列的監測和支撐；另一方面任何攻擊都有較長的潛伏期，而其爆發時間卻極短，建立快速響應機制則能夠將安全的瞬時降到最低，減少資產信息被竊取的風險。

安全的交付需要更加簡單有效：現在安全產品的品類越來越多，架構也越來越複雜，建設難度較大，但是大多數企業並沒有專業的安全團隊，這導致大量的安全事件都是由於安全設備的錯配漏配導致的，將安全建設變得更加簡單有效則能大大降低用戶的安全風險。

古亮隨後針對智能安全的挑戰做出了詳細的分析。他總結智能安全的挑戰有以下幾點：

1. AI引擎框架的漏洞和缺陷可能會導致的安全隱患。例如TensorFlow、Caffe的漏洞，甚至於Python、Numpy的漏洞也可能會被攻擊者所利用。

2. 使用對抗樣本使人工智慧時效。他提出「data is the new source code」，認為在智能時代，數據和代碼一樣可以導致安全問題。

3. 基於AI安全檢測引擎結果的舉證和魯棒性。他認為AI安全檢測引擎的結果事實上有時候是不準確的，其結果在樣本集上是有效的，但是如果擴大的樣本集外怎麼確保有效仍然值得研究。

4. 人工智慧是把雙刃劍，它也有可能被使用來進行安全攻擊。

基於以上的討論，他呼籲大家共同來完善智能時代的網路安全環境，通過合作來與灰黑產的技術進行對抗。

2、人工智慧技術安全與法律規制

吳沈括，北師大刑科院暨法學院副教授，聯合國網路安全與網路犯罪問題高級顧問，最高人民法院諮詢監督專家，中國互聯網協會研究中心秘書長

作為一名法律專家，吳沈括副教授讓在座的聽眾見識了法律人士對人工智慧安全的嚴謹思考。

首先，他介紹了當前人工智慧法律治理的現狀。目前很多國家都已經或者準備開始對人工智慧進行立法。這主要有兩種原因：1、搶佔立法優先權；2、人工智慧確實產生了一系列的風險問題。美國在人工智慧立法方面，主要看到的是關於自動駕駛方面的法律法規較多，也即關注人工智慧對人身安全的風險；而在我國，則更強調技術本身的法律問題。針對人工智慧的技術，他列舉了人工智慧面臨的安全風險種類。

隨後，按照法律的嚴謹風格，他對人工智慧的含義做出定義和判斷。他認為人工智慧可以有兩種定義：1）具有思考能力、行為類人、理性的計算機系統；2）一種自動學習、獲取數據特徵的計算機演算法與系統。針對複雜多樣的人工智慧應用，他認為我們應當針對每一個具體應用領域和層面進行界定和立法立規。例如演算法與系統層面有圖像識別、用戶畫像、智能金融投顧等，硬體和基礎設施層面有機器人、自動駕駛、無人機、物聯網。這些都需要針對性地專門考慮。他還提出人工智慧的三大網路安全風險，包括系統安全風險、演算法透明度與可解釋性以及數據利用與隱私保護。

吳沈括副教授還詳細地對人工智慧系統安全問題做出了詳細的介紹，提出「人工智慧的系統安全新風險主要存在於人工智慧硬體應用的場景中」。

在網路安全法律視野下，人工智慧安全的治理路徑有兩點：1）人工智慧硬體應用與《網路安全法》的適配與融合；2）業務鏈責任承擔問題，也即引入多維責任分配方案。

他在結語中總結了人工智慧法治有以下幾個要點和趨勢：

立法與技術發展相適應，謹防抑制市場活力；

以具體應用為基礎的人工智慧法律治理將引導監管走向碎片化和多元化；

在人工智慧時代，軟性規範的適用將成為網路安全法律治理的主流方式，而傳統的自上而下、以歸納思維為主的法律治理思路已逐漸無法勝任人工智慧時代的監管重任。

3、基於人工智慧的風控和反欺詐引擎

黃鈴，慧安金科創始人，清華大學交叉信息研究院兼職教授，英特爾研究院資深科學家

黃鈴在報告中介紹了他們用人工智慧技術做金融風控和反欺詐的經驗。

據黃鈴介紹，在過去的5到10年中，整個互聯網黑產和灰產發展非常繁榮，導致今天互聯網金融、銀行機構等都面臨著有組織、有分工、且具有先進技術（包括人工智慧技術）的黑產攻擊。針對這些黑灰產公積，現在市場上已經有一些解決方案，但是往往很難防止他們，因為目前的這些解決方案主要是基於規則或有監督的機制，這些方案需要建立在過去曾經發生過的欺詐行為中，但是面對現在團伙化、專業化的攻擊，傳統風控和反欺詐的方法在覆蓋率和精準度上都存在一些問題，而且不能應對新的欺詐行為。

黃鈴隨後提出他們慧安金科建立的基於半監督主動式AI系統的企業級通用人工智慧引擎。該引擎能夠基於少量（甚至沒有）標籤的情況下、結合客戶應用場景去主動進行風控和反欺詐檢測。

黃鈴首先向在座的聽眾介紹了半監督機器學習。這是一種用戶關聯聚類和分類相結合的方法，其建模實現為基於關係圖的拉普拉斯調和解。但是這種方法的會隨著用戶數量的增加曾指數增長，這在千萬級的用戶數量下顯然是不適用的。他們提出了一種關係圖近似求解的方法將關係大圖逼近為小圖，在小圖上做完拉普拉斯求解後，再映射回去，這保證了他們能夠在千萬級（甚至億級）用戶上進行運算。

基於以上的這些技術，他們做出了反欺詐產品「網鈴」，該產品能夠使用人工智慧來分析海量數據行為數據，在不侵犯個人隱私，無預知欺詐的類型和特點前提下，仍然可以主動地在千萬級用戶中識別出不正常的行為和關聯。其覆蓋率能夠達到80%，而準確率則高達99.6%。隨後黃鈴使用兩個在線電商的案例給在座的聽眾介紹了其識別效果。

4、智能汽車網路安全標準與技術

羅蕾，電子科技大學嵌入式軟體工程中心教授，車載信息服務產業應用聯盟網路安全委員會秘書長

羅蕾教授在報告中講了四個內容，分別為國內外智能汽車網路安全相關標準，國外智能汽車網路安全相關技術，車聯網路安全委員會的白皮書、指南細則以及網路安全標準體系，最後她簡要介紹了車載信息服務產業應用聯盟和電子科大嵌入式軟體工程中心研究與產業化的基本情況。

羅蕾教授認為現在汽車工業正處於變革的關鍵時期，就像十年前手機的發展一樣，正不斷地智能化和網聯化。與此同時也就出現了安全的問題。在安全方面有兩種：safety和security。前者為安全可靠，指保護外部環境不受設備的傷害；而後者為安全保密，指保護設備不受外部環境的傷害。

隨後羅蕾教授分別介紹了美、日、英、歐盟、ISO、國際自動機工程學會（SAE）、ITU-T（國際電聯）、聯合國、歐洲通信標準化協會以及中國的相關標準。我國在這方面提出了國家車聯網產業標準體系建設指南，該指南包括智能網聯汽車標準體系、信息通信標準體系、電子產品與服務標準體系、智能交通先關標準體系以及車輛智能管理標準體系。

在技術方面，羅蕾教授認為，車載硬體正從獨立單元控制器演變為多域系統控制器，這滿足了不斷增長功能的計算要求。針對智能汽車的技術，HIS聯盟提出了HIS規範SHE（Secure Hardware Extension），並提出三個安全等級。此外TCG、AUTOSAR、TEE也制定了一系列的技術規範。

羅蕾教授提醒說，現在很多業界人士認為2020年自動駕駛將會量產，但是目前國內相關的法律法規仍然比較薄弱，還需要大家共同將相關的安全與技術的標準和法律制定起來。

隨後羅蕾介紹了電子科技大學嵌入式軟體工程中心的工作情況。據羅蕾教授介紹，目前該中心承擔了汽車電子網路安全標準的研究，並孵化了汽車電子網路安全公司「廣東為辰信息科技有限公司」，為辰信安已推出網路安全產品與服務，並已經量產上車。

5、人工智慧應用的安全風險

李康，360智能安全研究團隊負責人

李康不僅是360智能安全研究團隊的負責人，還是Disekt、SecDawgs CTF戰隊創始人、xCTF和藍蓮花戰隊的啟蒙導師，2016年DARPA Cyber Grand Challenge決賽獲獎者。據其介紹，DARPA舉辦的這場Cyber挑戰賽為全球首次及其網路攻防比賽，整個比賽歷時三年，是一種全自動、無人工干預的CTF對戰，最終他們的成果被陳列在美國歷史博物館中。

李康隨後列舉了之所以關心AI安全問題的原因。1）人工智慧造成了一系列的安全問題，例如Uber事件；2）人工智慧/深度學習在生活中「成功應用」，例如通過人臉識別可以檢測學生的遲到早退，分析學生抬頭率等，而同樣的也可以用它來刷帖、刷評價或者破解圖片驗證碼。

他提出了自己的一個思想，即：安全和核心是對抗。隨後他列舉了人工智慧時代可能面臨的攻擊類型。

首先是對抗性機器學習。這也是目前學界主要關注的研究內容。但是李康認為這雖然是一個大問題，但在實際中並不是主要的攻擊方式。

其次是模型缺陷與後門。這主要表現在訓練處的模型總是基於一定的訓練數據之上，在遇到超出模型範圍的數據時，模型將無能為力並導致系統決策失誤。而另一方面，如果模型製作者在正常模型之外添加惡意模型後門，那麼它完全可以騙過正常的檢測。

第三種是深度學習軟體中的安全問題。目前的深度學習應用事實上都是分層的，在應用層包括程序邏輯、模型和數據；往下為框架層，例如TensorFlow、Caffe、Torch等；再往下則是框架依賴層，包括python等。這些層次中存在的漏洞都可能造成安全問題。

另外一種是數據污染攻擊。他以深度學習的典型應用——圖像識別為例。李康以圖像識別中最常見的手寫字識別為例，他通過對圖像進行降維壓縮實現了機器誤判「7」為「1」，將羊誤判為狼。

6、AI模型安全與Paddle對抗工具箱

高磊：百度安全實驗室技術專家

報告伊始，高磊便給聽眾舉了兩個假想的攻擊例子。首先是在語音識別時加入微擾的背景音，則能夠通過背景音來改變識別出的結果，這可以例如篡改某一個數字或關鍵信息等。第二個例子是攻擊者可以向人臉支付系統的審核人員提交一份加入微小擾動的本人照片，於是他就每次刷臉支付就能夠由別人買單了。

以上兩個例子的核心都在於通過加入微小擾動來生成對抗樣本。高磊接下來列舉了兩種對抗樣本攻擊的「套路」。由於對抗樣本可以在功能類似的模型之間進行遷移，因此攻擊者就可以先用功能類似的白盒生成對抗樣本，再用對抗樣本去欺騙攻擊的黑盒，此為套路一。套路一的加強版則為通過多個白盒模型來生成性能較好的對抗樣本。另外一種套路則是給出一個輸入，通過用黑盒演算法搜索，獲得對抗樣本，再將對抗樣本輸入到黑盒獲得分類結果。針對以上兩個套路，高磊分別詳細介紹了兩個案例：FaceNet白盒攻擊和人臉比對服務黑盒攻擊。

最後高磊介紹了百度的Paddle對抗樣本工具集，白盒對抗樣本生成演算法包括FGSM、BIM、BIM+M、DeepFool、JSMA等。可以在github上了解更多詳細信息：http://github.com/PaddlePaddle/models/tree/develop/fluid/adversarial

7、安全場景的用戶畫像

黃亞軍，北京頂象技術有限公司演算法專家

對於一個企業在其整個的業務流程中都會去收集用戶信息以構建用戶畫像，從而進行精準營銷和信用評估。黃亞軍在報告中針對這個問題講了三點：1、如何提高數據採集的質量；2、如何權衡即有高價值同時又有高風險的用戶畫像；3、建立深度用戶畫像及其意義。

首先黃亞軍提到，在企業通過客戶端採集用戶數據，但是在這個過程中，由於用戶和企業系統之間隔著整個互聯網，這就給企業的用戶畫像帶來不可控。舉例來說，一個黑灰產知道了一個企業APP的執行邏輯，他就可以根據這個邏輯去構造數據，去刷介面；或者進行大量垃圾註冊等。這種風險會給企業帶來價值損失，更重要的是會污染用戶數據，導致用戶畫像失真。黃亞軍提到他們針對此問題構建的一整套風控體系，從客戶端到註冊登錄、到營銷活動，到交易交付，到商品評價等。這種風控體系能夠極大地提高畫像數據的質量。

黃亞軍隨後介紹了如何綜合評價用戶的價值與風險問題。對於一個企業來說，無論是做風險決策還是價值評估，所依據的也即用戶畫像技術。在用戶畫像中如何降低誤報同時提高價值轉化則是非常重要的問題。在這種考慮就需要將用戶畫像放到價值和風險的組成的二維平面中進行綜合評價，對於那些高風險同時也是高價值的用戶不能直接丟掉，更不能完全拿來，這需要構建深度用戶畫像，以實現所謂的低誤報和高轉化。

所謂深度用戶畫像，即對用戶數據（行為序列、關係網路等）更抽象的表徵學習（多維連續空間），該表徵儘可能保留數據自身的信息，使其更適用於複雜數據挖掘場景。

黃亞軍分析了傳統標籤式用戶畫像與深度用戶畫像的優劣。對於傳統的標籤式用戶畫像，其標籤主要是基於業務而制定，因此可解釋性較強，且易於應用到業務策略和統計中；但是這種用戶畫像只是對數據單一維度的抽象，如果想要在不同業務之間進行泛化就會很困難。而深度用戶畫像則能夠學習數據本身的特徵，很容易應用到複雜的演算法任務當中，對於不同的業務其泛化能力也很強。當然由於它應用到很多深度學習的技術，所以也帶有深度學習的劣勢，即可解釋性較差。

8、主機側入侵智能檢測

何煒，阿里雲演算法安全工程師

如果前面的報告是從客戶側的角度考慮安全問題，那麼何煒的這個報告則是從主機側進行的考慮。何煒首先介紹了阿里雲上面臨的異常進程的現狀，其次講解了傳統的單一&多維檢測方案以及深度學習方案，並對檢測方法的演進做了總結。

對於雲上主機側的安全入侵主要有兩個方向，一個入侵來源為租戶主機，另一個為入侵雲基礎設施。對於後者的防護，其實類似於一個大企業對其業務的防護，其數據較為單一，例如伺服器配置類似、運行腳本、維護團隊都基本一致。所以採用基線兜底、語言模型、領域知識即可很好地解決。

但對於前者的防護則較為複雜，因為在雲中很多不同業務的中小企業，無論是運維、進程還是調度等都非常紊亂，沒有一個統一的標準，因此也就不存在一個統一的自動化的安全防護模型。

針對此問題，何煒介紹了兩種方法，迭代學習和深度學習。何煒在此提到的迭代學習有點兒類似前面講者的半監督學習，也即先使用少量人工標註的樣本進行訓練學習，模型會學到一些新的變種行為，隨後人為地將學習到的新行為特徵再放到學習樣本中進行迭代學習。但是迭代模型很難學習到一些距離較遠的行為，因此當迭代到一定程度，性能就不會再有提升。

深度學習在封閉集中能夠有很好的表現。所以阿里雲也嘗試使用RNN構建命令序列檢測模型。這種模型能夠將4gram拓展到更長的序列檢測中，其感知範圍更廣。他們通過實驗發現，基於RNN的模型其Loss有了較大的下降。不過何煒表示將這種方法推廣開還需要有很多工作去做。

總結來說，阿里雲在過去一年半的時間裡，將整體降報率提升了89%，特徵表達提升了8%，一句話進程提升了10%，規則外變種發現了12個。何煒提出，從感知能力上來看，智能模型由統計模型演化到迭代學習模型，隨後會演化到深度學習模型。

9、智能語音產品測評與安全檢測

張超，國家工業信息安全發展研究中心

張超的報告分為三個內容，首先他簡單梳理了我國智能語音產業的發展歷史，隨後基於對智能音箱的組成和使用的分解詳細探討了智能音箱的安全問題，最後介紹了國家工業信息安全發展研究中心的工作。

據張超介紹，我國的智能語音產業發展大致經歷了四個階段：50-70年代的技術萌芽階段，主要以中科院聲學所的工作為代表；80-90年代的技術突破階段，此時我國智能語音核心技術接近國際先進水平，但產品化程度尚需進一步提高；90-10年代的產業化階段，智能語音企業相繼成立，智能語音技術逐步在各行業應用；10年以後的快速應用階段，以語音合成、語音識別等為代表的只能語音核心技術不斷突破，產品和應用的可能性不斷提升。

隨後張超根據對智能音箱的分析，列出如下智能音箱組成和適用環節的完整過程，並以此為基礎展開對智能音箱的安全問題討論。