機器學習可以管理你的郵件……和諾言！

科技 03-04

全文共2732字，預計學習時長5分鐘

目前，電子郵件不僅是一種重要的通信手段，也是一種記錄信息、管理業務、日程安排和日常協作的工具。因此，要完整查閱收件箱的所有內容變得越來越困難。不過，當下有一種絕妙的方法可以加強你對郵箱的管理，而微軟的研究人員正在利用這點來開發支持用戶的工具。

今年2月11日至15日，在澳大利亞墨爾本舉行的「ACM網路搜索與數據挖掘國際會議」上，微軟兩個該領域的相關團隊發表了有關論文。

「辨別哪些郵件值得關注是個頗具挑戰性的任務」，微軟研究院的合伙人研究員兼研究經理Ryen White說，他管理著一個由十幾位科學家和工程師組成的團隊，通常每天會收到100到200封郵件，「但現在，我們不用親力親為檢閱郵件了。」

麥肯錫全球研究所的數據顯示，專業人士一般會把28％的時間花在查閱郵件上，因此貼心的工具能夠對其產生切實的幫助。

高級研究員兼研究經理Ahmed Hassan Awadallah說道：「我們正在嘗試引入機器學習以理解大量數據，從而讓您在工作中更高產且高效。效率，可能來自更好的處理電子郵件的能力、更快地回復他人的能力、或是不錯過本可能忽視的事的能力。如果我們能節省一些做這些事的時間，將時間用於實際的工作，那就太好了。」

郵件拖延症：是現在還是稍後做決定？

多年來，Awadallah一直在研究個人與郵件之間的關係，探索機器學習如何更好地幫助用戶回復郵件，以及如何使收件箱中的郵件更易於查閱。在研究期間，他和其他研究人員開始注意到用戶之間的不同行為。有些人會立即處理與郵件相關的業務，而另一些人則會在採取行動之前多次回閱郵件。觀察結果引發了他們的思考：用戶是如何管理他們的郵件的？我們怎樣才能幫助他們提高這一操作的效率呢？

「有個術語叫『電子郵件超載"，指有大量信息流入收件箱，而你卻很難同時處理好所有收到的信息，」Awadallah解釋說，「不同的人有不同的應對策略。」

在《描述和預測電子郵件延遲行為》一文中，Awadallah和他的合著者揭示了這種行為的心理：他們將這種行為定義為「郵件拖延症」，即先看一眼郵件內容，但要過一會兒才去處理它。

該團隊致力於兩個目標：一是深入了解拖延行為；二是建立預測模型，幫助用戶推遲處理和回復郵件。該團隊由微軟研究院的Awadallah，Susan Dumais和Bahareh Sarrafzadeh（該論文的主要作者，也是當時的實習生）以及微軟搜索組、助理組和情報組的Christopher Lin，Chia-Jung Lee和Milad Shokouhi組成，他們為第一個目標提供了大量資源。

Awadallah說道：「人工智慧和機器學習應該受到人們當下行為的啟發。」

根據未處理的郵件量測出的基於用戶工作量的郵件拖延率

未處理的郵件數量是Awadallah和同事在訓練他們的推遲預測模型時用到的數據之一。該團隊採訪了15名受試者並分析了40,000名匿名用戶的電子郵件日誌，發現人們推遲處理郵件的原因有以下幾種：這些人需要比現在更多的時間和資料來回復郵件，或者他們正在處理更緊迫的任務。他們同時還會考慮發件人是誰，以及多少人被抄送了。研究人員還發現了一些更有趣的原因，這與感知和邊界有關，即這些人拖延或不限定自己回復消息的速度。

研究人員利用這些信息創建了一個特徵數據集，比如消息長度、收件箱中未答覆的郵件數量、以及消息是人為的還是機器生成的等信息，用訓練模型來預測消息是否被延期。Awadallah說，該模型可能會顯著改善人們使用電子郵件時的體驗。例如，電子郵件客戶端可以用這樣的模型來提醒用戶他們已經推遲甚至忘記的郵件，從而節省他們搜索這些郵件所花費的精力，並減少丟失重要電子郵件的可能性。

Awadallah說：「如果你決定把郵件延後處理，在很多情況下，你要麼只靠記憶，要麼依賴郵件客戶端提供的簡單控制項——比如標記個人信息或標記未讀信息。雖然這些是有用的手段，但我們發現它們沒能為用戶提供足夠的幫助。」

承諾檢測：承諾就是承諾

包含承諾的郵件存在於大量的收件中——人們承諾提供資料、布置會議或追隨同事的步調，而如果不能及時跟進這些事就會產生一定後果。

Ryen White說：「在合作環境中，履行承諾非常重要，有助於建立你的信譽和得到他人信任。」

目前的承諾檢測工具（如「Cortana」提供的工具）非常有效，但仍有進一步發展的空間。White，帶領著主要作者Hosein Azarbonyad（曾在微軟實習），以及微軟研究院首席應用科學家Robert Sim，正著力解決他們的論文《電子郵件中承諾檢測的領域適應性》中的一個特殊障礙：可用於訓練承諾檢測模型的數據集里的偏差。

通常研究人員只能訪問公共語料庫，這些語料庫往往是其領域所特有的。在這種情況下，研究小組借用了能源公司Enron和一個名為「Avocado」的科創公司的公開郵件資料庫。他們發現，在同一郵件庫里訓練和評估的模型，和在不同郵件庫里訓練和評估的模型，二者存在顯著差異，並且後者無法正常運作。

「我們想學習可轉移的模型。」 White解釋道。「這就是我們的目標——學習可應用於不同場景、問題及語料庫的演算法，這些演算法與訓練模型時的演算法相關，但並不相同。」

為實現這一目標，該團隊開始轉向關注遷移學習，這在資料庫無法代表最終部署環境的情況下非常有效。在他們的論文中，研究人員通過用三種方法識別和減抑某些信息來訓練他們的模型消除偏差，即：特徵級適應、樣本級自適應和使用自動編碼器的對抗性深度學習法。

電子郵件包含各種各樣的單詞和短語，有些詞與承諾的相關性更高，比如「我願意」「我會的」「你等著」等。在Enron語料庫中，特定領域的詞語如「Enron」「氣體」和「能量」可能會在訓練過的模型中佔比較高。Sim解釋說，特徵級適應會試圖用目標域中的類似特徵來替換或轉換這些特定領域的術語或特徵。例如，「Enron」可能會被「Avocado」替代，而「能源預測」可能會被相關的科技行業術語替代。同時，樣本級適應旨在增加訓練數據集中與目標域的電子郵件類似的郵件數量，減少那些不太相似的郵件數量。因此，如果一封Enron的郵件是類似Avocado樣式的，研究人員將在訓練模型時給它更多比重。

用於檢測承諾的神經自動編碼器模型的一般模式

三種技術中最新穎且最成功的是對抗性深度學習法，這種方法除了能夠訓練模型來識別承諾外，還會弱化模型區分「訓練中」的郵件和「將評估」的郵件的能力。這就是對抗法。這個方法實質上就是，當網路在指示電子郵件來源時會收到負面反饋，此時訓練網路以使其無法識別郵件來自哪個域。這樣做的效果是將模型中的域特定功能最小化或刪除。

Sim說，「在分類問題上，嘗試弱化網路的相關功能是有違常理的，但實際上，這是在推動網路為我們的主要分類任務服務，即判斷某些信息是否有關承諾。

使用戶擁有更多許可權

這兩篇論文與微軟的大目標相一致，即讓用戶擁有更多許可權，在充滿提高效率的機會的空間中挖掘提高產能的潛力。

White查看了他自己的電子郵件使用情況，發現他整天都在和郵件打交道，於是White對自己這一行為的成本效益產生了質疑。

White說，「如果你理性地思考下，就會產生這樣的疑問——哇，查閱郵件佔據了我們大部分時間和注意力，我們真的能從這份投入中獲益嗎？」

他和其他微軟研究人員都相信，只要通過不斷探索支持用戶需求的工具，就可以幫助用戶找到更好的答案。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 讀芯術 的精彩文章:

※SQL和Python的集合操作對比：適合的就是最好的！
※Facebook承認：參與研究間諜軟體有18％是青少年

TAG:讀芯術 |