通信頂會聯合阿里舉辦「網路」黑客馬拉松,大賽主席獨家解讀賽事如何賦能 AI 開發者
2019 年 8 月 19 日,SIGCOMM 2019 在北京開幕。在 8 月 24 日,由阿里巴巴和 ACM SIGCOMM 聯合舉辦的黑客馬拉松賽(Hackathon)將於北京阿里中心舉行,本屆 Hackathon 主席由阿里巴巴基礎設施網路研發事業部高級技術專家劉洪強擔任。這場賽事一共吸引了來自世界各地的 8 個代表隊參加,角逐冠軍。
針對本次 Hackathon 如何賦能 AI 學術青年,以及阿里基礎設施網路研發事業部的細節,AI 開發者獨家訪問了劉洪強主席,並在不改變原意的情況下,將活動及採訪內容整理如下。
Hackathon 如何賦能 AI 開發者?
AI 開發者:這次 ACM SIGCOMM 上的 Hackathon 的參賽主題是「Measuring and Debugging Real Network Systems」,為什麼會選擇這個主題呢?這個主題對於行業或者現實生活都有哪些啟發?
劉洪強:SIGCOMM 是 ACM 在數據通信中的旗艦會議,所以 SIGCOMM 上面的 Hackathon 也是以「網路」為主題。今年是 SIGCOMM Hackathon 舉辦的第二屆比賽,相較於上一屆更廣泛的網路主題,這次我們選擇了更聚焦的「測量和調試真實的網路系統」作為本屆比賽主題。
我們主要希望能夠通過這一主題,讓參賽者意識到當前的網路系統中還存在著大量困難的問題有待解決,所以開發好的監測工具和分析工具對提高網路系統的整體穩定性和性能至關重要。除此之外,我們還希望能夠通過這個主題讓計算機網路和系統行業的人看到開發網路測量和調試系統的價值和難度,提倡思考如何藉助 AI 等新工具,從更高和更系統的層面了解現有的重要網路系統,從而為雲計算等重要的基礎設施資源保駕護航。
AI 開發者:剛剛你提到的藉助 AI 新工具,那麼 AI 技術可以如何幫助解決這個主題所面臨的問題呢?
劉洪強:本次 Hackathon 中,參加者可以利用前沿的 AI 技術來對測量所收集的數據進行處理,這一方法能夠在一定程度上幫助我們發現工作人員難以發現的潛在問題。同時,本次 Hackathon 也鼓勵參加者能夠將 AI 的計算集群和系統作為研究對象,來設計測量和調試的工具,通過深入了解 AI 訓練中的網路瓶頸,進一步研究如何為 AI 系統設計更好的網路。
AI 開發者:除了 AI 技術,參賽還需要用到哪些技術?比賽中,賽會方能夠提供相應的平台或數據來輔助選手完成比賽嗎?
劉洪強:本次比賽中,賽會方提供了幾個題目供選手選擇,技術領域涉及遠程程序調用(RPC),RDMA 高速網路,WiFi 網路,4G LTE 網路,以及深度學習訓練系統網路。
其中,RPC 是遠程程序調用的簡稱,它是被大量應用於分散式系統中的網路通信協議和介面的整體解決方案。它的特點就是將網路底層的通信協議細節隱藏,讓應用程序在訪問和調用遠程資源的時候能夠像調用本地資源一樣方便。因此,RPC 是分散式系統開發的重要工具,它的性能和穩定性對分散式系統整體的性能和穩定性有著深刻的影響;
而 RDMA(Remote Direct Memory Access)是一種數據中心中的高速網路解決方案。它的特點是將所有的傳輸層協議是現在硬體里,直接打通網卡和內存之間的讀寫訪問,可以極大地提高網路帶寬,實現超低延遲,節省伺服器上 CPU 的使用量;
WiFi 網路和 4G LTE 網路則是我們日常生活中用到的兩種基礎的無線接入網路;而分散式深度學習則是人工智慧的關鍵技術,它利用網路實現多台伺服器互聯,將更多的計算資源聯合投入一個任務的計算,計算單元之間靠高速的網路進行大量通信交換計算結果,實現對 AI 訓練的極大加速。
同時,賽會方還提供了免費的阿里雲計算資源,包括阿里雲所能提供的所有類型的服務。如果有團隊要將自己的計算資源帶入會場,賽方也會提供場地、網路和電力等支持。
AI 開發者:如果參賽選手要想在賽事中取得優秀的成績,有哪些要點值得選手們參考嗎?
劉洪強:如果能夠解決賽會方提供的更難難度的題目,那麼該選手取得優秀成績的幾率將大大提高;同時,完成更多的題目也能夠取得更優異的成績。另外,所有的團隊都會有 5 分鐘時間來講解他們的成果,團隊報告的質量、完成效果以及創新度都會視為評分參考要點。
AI 開發者:目前,我們身邊有很多 Hackathon,本次 ACM SIGCOMM 上的 Hackathon 與其它(比如最近京東舉辦的 Hackathon)相比,最大的亮點是什麼?
劉洪強:本次 Hackathon 的最大特點是它集中在了解和解決計算機網路系統中的真實問題,並且這場比賽是由企業與 SIGCOMM 聯辦,因此比賽更偏向於學術研究方向,力在將開發和研究更充分的融合。
AI 開發者:那你認為怎樣的選題最適合通過 Hackathon 的形式來進行呢?
劉洪強:Hackathon 的題目一定要有實際意義,同時也可以對未解問題具有探索意義。另外,題目的範圍既要要有一定的專業範圍,避免主題太泛而缺乏比較的標準;同時也要有足夠的空間,來啟發參賽者發散思維進行思考和創新。
AI 開發者:你認為馬拉松賽事對開發者最大的鍛煉體現在哪裡?
劉洪強:Hackathon 賽事對開發者最大的鍛煉是能夠從平時的工作中暫時解放出來,通過解決 Hackathon 的問題來重新思考他們所關注領域當前面臨的問題;同時,參賽者還能在短時間內得出極具創新性和實用性的結果,在比賽中認識更多志同道合的人。
AI 開發者:在本次整個 Hackathon 的籌備過程中,賽會方都面臨了哪些挑戰呢?
劉洪強:主要挑戰有三點。
首先需要確定一個合適的題目,這個題目需要能夠足夠聚焦特定的專業背景,並且能夠有足夠大的空間供參賽者發揮。
第二就是能夠在這個大題目下確定出具體的挑戰題目供參賽選手選擇。因為這次 Hackathon 面向的對象包括所有對計算機網路與系統感興趣的人,所以每個挑戰還要有不同難度的子挑戰,這樣才可以讓不同背景的人參與。
最後是準備足夠的計算資源,並且保證選手在 Hackathon 當天也能流暢地訪問這些資源。
AI 開發者:能否結合你個人過去的參賽經歷和我們談談參加比賽對於個人成長有哪些幫助?
劉洪強:我在 SIGCOMM 2018 也參加過 Hackathon,並且這次比賽也給我留下了非常深刻的印象;對我個人而言,主要收穫有兩點。
首先,通過對 Hackathon 的題目的了解,我能夠從側面了解到這個領域目前的狀態,比如:什麼「新技術、新工具」正在成為當前領域的主流,實際系統中有什麼重要的問題需要解決,人們是如何思考這些問題等方面,我能夠有更準確的把握。
其次,在 Hackathon 的組隊和交流過程中,我交到了志同道合的朋友;而這些朋友,在之後的工作和生活中,有的成為了我的合作夥伴,有的成為了我的摯友,他們都對我的人生有著積極的影響。
阿里神秘組織——網路研發事業部
AI 開發者:我們知道阿里有技術團隊、運營團隊、銷售團隊,但是很少聽到阿里基礎設施網路研發事業部,能否跟我們介紹一下這個團隊的整體情況?
劉洪強:阿里網路研發事業部是阿里雲智能事業群中負責整個阿里經濟體的網路架構設計、運營、研發和研究的部門。其職責範圍覆蓋了阿里的全球數據中心網路、城域網、骨幹網、邊緣網路、光網路和無線網路。
AI 開發者:阿里網路研發事業部的核心技術是什麼呢?目前團隊都有哪些的研究成果或者技術成就,可以簡單向大家介紹一下嗎?
劉洪強:阿里基礎設施網路研發事業部研發了多項國際領先的核心技術,例如高性能網路、自研交換機、網路智能化運營體系、IPv6 等等。通過系統化的技術創新,我們部門也為整個阿里經濟體提供了非常可靠、靈活和高性價比的網路。
圖 1 阿里雲 NFV 網路技術平台
而在近幾年,阿里網路研發事業部在研究上發展非常迅速。就在今年 SIGCOMM 上,阿里網路研發事業部的兩篇研究成果被大會所收錄。
其中一篇介紹了阿里巴巴自研的新一代高速網路擁塞控制協議(HPCC)。HPCC 利用了最新的交換晶元能力,將網路擁塞延遲降低幾十倍至上百倍,同時擁有快速收斂,高效和高穩定性等可以被理論證明的特性。
另一篇是業界首次實現的基於意圖語言驅動的 ACL(訪問控制)規則管理系統。該系統已經在阿里的骨幹網得到了應用,能夠實現將骨幹網的 ACL 操作變得簡單而不易出錯,將網路 ACL 變更的計劃時間從幾周縮短為幾個小時。
AI 開發者:阿里網路研發事業部的下一步發展計劃是什麼呢?
劉洪強:網路研發事業部未來計劃繼續推進國際化,隨著阿里經濟體在全球業務的展開,提升阿里網路在東南亞、歐洲、美洲的覆蓋面。
與此同時,我們會加大在技術上創新研發的力度,聚焦在未來 100G 的高性能網路、自研機交換機、邊緣網路、意圖驅動網路、以及無線網路(含 5G)等幾個關鍵領域。
AI 開發者:如果有一名 AI 學術青年希望能夠加入阿里網路研發事業部,那麼他需要具備哪些能力呢?
劉洪強:網路研發事業部是一個高度技術密集型的部門,我們非常歡迎在網路創新研究、硬體研發、架構設計、操作系統、高性能網路、可編程網路、無線網路等領域有專長的候選人加入。
而網路智能化是未來發展的必然趨勢,AI 則是實現網路智能化的核心手段。我們理想中的 AI 候選人,需要具備一定的網路背景知識,兼具良好的開發能力和 AI 應用能力,並且不懼困難和挑戰。
SIGCOMM 簡介
SIGCOMM 是由 ACM SIGCOMM 組織舉辦的通信網路領域的旗艦型會議,也是目前國際通信網路領域的頂尖會議之一。SIGCOMM 2019 吸引了來自全球計算機通訊網路研究人員、學者及學生將近 1200 人參加了此次會議。
此次會議議題廣泛,包括物聯網、雲計算、人工智慧和5G給全球所帶來的巨大影響。同時,會議將從更廣泛的網路研究和治理的視角出發,重新審視互聯網高速發展所帶來的緊迫挑戰。
多年來,世界頂尖的大學和科技公司在 SIGCOMM 上發表的論文奠定了人們對先進網路技術的認知,同時眾多網路通信領域的具有里程碑意義的著作均是通過 SIGCOMM 發布。不過,SIGCOMM 對論文的質量要求極高,必須具有基礎性貢獻、前瞻性影響和堅實系統實現的論文才會被收錄,因此每年只錄用 30 篇左右。
今年其中的兩篇論文由中國企業阿里巴巴拿下,論文題目分別為《HPCC: High Precision Congestion Control》和《Safely and Automatically Updating In-Network ACL Configurations with Intent Language》。
圖 2 SIGCOMM 2019 大會現場
※使用以 Tensorflow 為後端的 Keras 構建生成對抗網路的代碼示例
※谷歌公布亞毫秒級人臉檢測演算法 BlazeFace,人臉檢測又一突破!
TAG:AI研習社 |