無平行文本照樣破解密碼,CipherGAN有望提升機器翻譯水平
Root 編譯整理
量子位 出品 | 公眾號 QbitAI
有一位97年的少年,本科期間就進了微軟、谷歌大腦實習。
不僅如此,他還參與了去年刷屏級論文Attention is All You Need的和One Model to Learn Them All的研究工作。
他,就是Aidan N. Gomez。
2月3號,Gomez作為一作和他在谷歌大腦的導師Kaiser往2018ICLR投的論文Unsupervised Cipher Cracking Using Discrete GANs被正式接收。
這篇論文介紹了非監督破譯密碼的模型CipherGAN,經非配對的明文密文訓練後,可以高保真地破譯凱撒移位密碼或維吉尼亞密碼。
加密 pk 解密
簡單介紹一下移位密碼和維吉尼亞密碼。
最早的加密方法,是公元前58年,凱撒出於軍事需要發明的移位密碼。
通過把明文的字母往右移三位,可得到外人看了不知所言的密文。
但這個加密方法保密性一般,只要破譯的人用窮舉法,就可以知道偏移量了。
好在,那時候的人沒什麼文化,移位密碼在軍事上用了好幾個世紀。
直到9世紀博學家AlKindi引入了字頻統計破譯法,即分析字母出現的頻率,移位密碼才終於被拉下神壇。
字頻統計,就是分析字母出現的頻率。
比如說在英語裡面,最常出現的字母是e(12.7%),t(9.1%),a(8.2%),而q,x,z每一個頻率都小於1%。還有同字母的雙字母組,ss,ee,oo,都屬於英文單詞里常見的組合。
抓住語言結構特點,密碼就迎刃而解。
移位密碼被破之後,為了對抗字頻統計破譯法,維吉尼亞密碼,最著名的多字母替換式密碼應勢而生。
維吉尼亞密碼是有個密表的,相當於26個不同偏移量的凱撒密碼疊在一起,以及以一個關鍵詞不斷重複的密鑰。
只有拿到密鑰的人對應著密表才能解出密文來。
比方說,明文是Holy high,密鑰是wow。
那麼對應著上面的密表,去w行找到h的密文是D,o行o的密文是C,以此類推,holy high的密文就是DCHU VECV。
破解密碼的表現
以往破解密碼的模型,在密文長度有限的情況下,還是可以破解出密鑰很短的密文來的,正確率不錯。
但如果密鑰的關鍵詞很長的話,正確率就很低了。
而該論文的工作,訓練數據是非配對的明文和密文,也無需預置的人類語言學知識,就可以破譯長詞級的密鑰。如下表所示
表中左邊三列是CipherGAN的表現,表右邊兩列是以往模型的表現。
可以看出來,在解密三種詞量長度(10,200,58)的密文時,CipherGAN解密移位密碼的表現近乎完美(100%,98.7%,99.8%)。
當密文有200個單詞時:
1)CipherGAN破解移位加密的正確率可達到98.7%,是以往模型的兩倍(44.5%);
2)維吉尼亞加密的密文以往模型的正確率完全不行,給了密鑰才勉強能達到44.3%,而CipherGAN的正確率可達到75.7%。可以看出來CipherGAN比較擅長破譯長詞級密鑰的密文。
該模型是基於圖像風格轉換模型CycleGAN(加我們自己的鏈接)作的修改,破譯表現遠高於以往頻率分析的模型。
針對CipherGAN可以使用非平行文本作輸入的特點,Gomez在接受Newsweek外媒採訪的時候,也提到了,「密碼破譯的模型思路也能遷移到非監督學習的翻譯上。」
因為語言翻譯常面臨的難題是,缺乏足夠的平行語料。
正好和非配對明文密文的密碼破譯過程很相似。
Gomez希望Facebook和Google這種量級的巨頭公司可以繼續這個課題,把CipherGAN用在提高機器翻譯水平上。
「我們提出的演算法,對任何兩種文本信息都是通用的。不一定非要純文本或者暗號,也可以是英語和法語。」Gomez說。
OMT
破解密碼模型工作的,是整個for.ai研究團隊。一共5個小夥子,都是多倫多大學計算機系的學生。
Gomez文章開頭介紹過就不多說了。
左一是還在念大三的Sheldon Huang,創辦了多倫多大學機器智能學生社團UTMIST,是UTMIST主席。
左二是已經休學的Ivan Zhang,曾在Ranomics工作了兩年,加入For.ai將近1年。
右二是Muhammad Osama,今年Gomez一起拿到了榮譽學士學位,於18年6月畢業。
最右邊的是香港小夥子Bryan Li,曾在華為香港和AMD實習過。
除了專研AI課題,這幾個小夥子還在自己的簡歷里談到自己有不少興趣愛好,有喜歡畫畫的,有喜歡攝影的,還有喜歡玩樂器的。
量子位前往個人的Ins上推上看了看,樣樣出手都鵝妹子嚶。大家感受一下
The darker the night, the brighter the stars
by Bryan Li
最後,附論文地址,
https://arxiv.org/abs/1801.04883
及高質的同行評議,
https://openreview.net/forum?id=BkeqO7x0-
及開源代碼的地址,
https://github.com/for-ai/CipherGAN
For.ai團隊的官網
https://For.ai
—完—
加入社群
量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微信號qbitbot5,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※對話彭軍、樓教主:1.12億美元融資來了,Pony.ai車隊也已在路上
TAG:量子位 |