ACL 2019對話系統論文綜述，一文帶你縱覽16篇前沿研究

知識 08-14

機器之心專欄

作者：Udesk AI Lab 研究員 Will Li

自然語言處理的國際頂級會議 ACL2019 剛在文藝復興的發源地-義大利的佛羅倫薩落下帷幕，最佳論文等各獎項也都名花有主。本文概述了ACL對話與交互系統中的報告論文，16 篇優秀論文看這篇文章就行。

這次會議共接收到投稿 2905 篇，比 2018 的 1544 近乎翻倍，接收文章數為 660 篇，接收率為 22.7%，與 2018 年的 24.9%，2017 年的 23.3% 差別不大。

這次會議包含了 22 個主題，中國學者表現出色，長文投稿 567 篇，被接收 118 篇，接收率在 20.8%，僅次於美國的 154 篇，並且斬獲了本次會議的最佳論文獎項。

我們對對話系統比較關注，因而梳理了會議中 Dialog and Interactive Systems（對話和交互系統）下的文章，該主題共接收長文 38 篇，有 16 篇在會議中做了報告。下面介紹報告中的相關論文。

本次會議中，Dialog and Interactive Systems 分了三個 section，分別是 Neural Conversation Models, Task-Oriented Dialog, 和 New Task。

神經網路對話模型（Neural Conversation Models）

這個 section 的工作，是在給定對話歷史的情況下，如何通過模型來選擇對話中最優的回答：

論文 1：Boosting dialog response generation

作者：WenChao Du，Alan W Black

論文鏈接：https://www.aclweb.org/anthology/P19-1005

文章針對對話系統中容易出現的通用和一般性回答，做了些優化來提升生成對話文本的相關性和多樣性。其工作，是基於 RAML（Reward-augmented Maximum likelihood learning, Norouzi 2016）模型：該模型的目標是最大化預測的分布 y*在模型中條件概率分布 p（y|x），並在模型迭代中採用連乘的 boosting，使每一輪迭代能更好的模擬分布。

本文的優化，是在模型迭代中假設訓練數據的分布服從均勻分布，來簡化 boosting 的過程，並把這個假設擴展到 RAML 模型的指數回報分布（exponential payoff distribution）中：

在實驗中，作者發現通用的回答也不一定總是有低混淆度 Perplexities（Li 2017b），而高混淆度會在迭代中增強對應的回答的權重，導致通用回答在後面的迭代中出現的頻率越來越高。普通的區分模型，是通過學習人產生的回答與生成式回答的差異，但在這，生成式回答數量太少，模型能輕易記住所有人類的回答，導致模型不好泛化。

作者採用了一個基於規則的區分模型：在每次迭代中，保留一個最常出現的生成式回復的列表，並用一個簡單的二分函數來判斷兩個回復是否相似，用這個相似得分去更新數據的權重。最後在 Persona Dataset（zhang 2018）上做了實驗驗證，表明模型在 BLUE 上和現有的模型接近，ROUGH 值有時會變差，但是在多樣性的指標上，比如不同 n-gram 的個數，則有明顯的提升。

論文 2：：Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

作者：Chinnadhurai Sankar，Sandeep Subramanian，Christopher Pal，Sarath Chandar，Yoshua Bengio

論文鏈接：https://www.aclweb.org/anthology/P19-1004

Bengio 大神署名的文章，主要是研究現有的神經網路模型是否有效利用了對話歷史，其方法，是在對話歷史中加入一點擾動，比如，改變對話數據的先後順序，或者改變詞的順序，然後看模型計算的條件概率是否有變化。需要注意的是，擾動只是發生在預測階段，而訓練階段，是沒有對數據做修改的。

文章在 4 個數據集上（bAbI dialog，Persona Chat，Dailydialog，MutualFriends），加入了 10 種不同的擾動（隨機打亂句子序列，去掉某個整句，句子截斷，去掉句子中的名詞或動詞等），發現 seq2seq 的 model（Bahdanau 2015），以及 transformer 的 model（Vaswani 2017）等對這些擾動都不敏感。

論文 3：Constructing Interpretive Spatio-Temporal Features for Multi-Turn Response Selection

作者：Junyu Lu，Chenbin Zhang，Zeying Xie，Guang Ling，Chao Zhou，Zenglin Xu

論文鏈接：https://www.aclweb.org/anthology/P19-1006

本文通過加入時序和空間上的 feature，來解決對話系統中的回複句子的選擇問題。方法分兩步，第一步是通過軟對齊來獲取上下文和回復之間的關聯信息；第二步是在時間維度聚合注意力的映像，並用 3D 卷積和池化來抽取匹配信息。模型分表達模塊（Representation module）和匹配模塊（Matching block）兩部分，如圖 1，表達模塊用的是 Bi-GRU，匹配模塊用的是深度 3D 卷積網路（Ji 2013）。

圖 1

時序和空間上的匹配體現在如下過程中：句子空間上的關聯，通過 attention 機制來構建；時間上的關聯，則是把不同時間維度上的 3D 特徵擴展成 4D「方塊」（cube），之後採用類似 2D 卷積核對 3D 數據的處理流程，這裡用 3D 卷積核來處理 4D 數據，並在 3D 上進行池化操作。最後再加上一個 softmax 進行分類。

方法在兩個數據集上，和 Dual LSTM Encoder（lowe 2015b），Dual Multi-turn Encoder，Sequential Matching Network（Wu 2017），Deep Attention Matching Network(Zhou 2018) 比較了 R@1 和 MRR，得到了較好的比較效果。

論文 4：Improving Multi-turn Dialogue Modelling with Utterance ReWriter

作者：Hui Su，Xiaoyu Shen，Rongzhi Zhang，Fei Sun，Pengwei Hu，Cheng Niu，Jie Zhou

論文鏈接：https://www.aclweb.org/anthology/P19-1003

這是一篇來自騰訊和阿里的文章。本文的想法，是通過語句改寫，來解決多輪對話中信息省略和引用的問題。通常，在多輪對話中，後續的問句會和前面的問句存在部分指代關係，因而後續問法會省略到部分信息。

如圖 2 所示的，第一句「梅西有多高」，第二句「他和 C 羅誰是最好的球員？」，這裡的「他」指代的就是前面的「梅西」。這種指代或者信息省略的情況，使得機器很難去理解對話的真實意圖。因而，本文的工作，是構建一個模型來生成補全信息後的句子。

圖 2

為了讓模型學習到自動補全的能力，本文作者花時 4 個月，建立了一個補全的對話數據集。原始數據由 20 萬中國主流社交網站上的多輪對話組成，標註人員在標註時，進行判定：對話是否有指代，或者有信息省略，或者兩者都沒有。

統計表明，只有 30% 左右的對話是沒有指代和省略的。然後標註人員需要提供改寫後的信息補全的句子。最終，數據集包含了 4 萬高質量的多輪對話樣例，正負樣本（有改寫的為正樣本，無改寫的為負樣本）各占 50%。

在模型上，還是採用了 Transformer（Vaswani 2017）架構來做 Encoder-Decoder。其中，Encoder 里除了 word embedding，position embedding 之外，還加入了對話的輪次 embedding 信息；在 Decoder 中，加入了一個閥門參數λ，來控制是否要進行語句的改寫。

圖 3 展示了完成的編解碼過程。最終的實驗結果，表明在語句改寫之後的準確率，召回率，以及 F1 值上，都比不加改寫過程的模型要提升 3% 到 5%。

圖 3

論文 5：Incremental Transformer with Deliberation Decoder for Document Grounded Conversations

作者：Zekang Li，Cheng Niu，Fandong Meng，Yang Feng，Qian Li，Jie Zhou

論文鏈接：https://www.aclweb.org/anthology/P19-1002

本文提出了在有文檔背景信息的多輪對話中，一種基於 Transformer 的對話生成模型。任務描述如下：當多輪對話的內容，和一個文檔集合相關時，模型的目標，是輸出一個整合了文檔知識在內的對話回復。因而，模型的輸入，除了已有的多輪對話歷史，還有一個文檔的集合。任務需要解決的問題有兩個，一是需要挖掘文檔中和對話相關的部分；二是將多輪對話的語句，和文檔中的相關部分進行統一的表示。

圖 4

本文提出的模型，有兩個創新，一是提出了一個增量式的 transformer 結構，可以將對話的句子，以及相關聯的文檔，增量的添加到模型中；二是提出了一個兩階段的解碼思想，第一階段關注對話的上下文連貫性，第二階段引入相關的文檔內容，來對第一階段的結果進行修正潤色。具體架構見圖 4。這個模型分幾個部分：

圖 4 的上部分是 Encoder 部分，其中：

右邊用 Self-Attentive Encoder（Vaswani 2017）對對話每一輪語句相關聯的文檔進行編碼，Self-Attentive Encoder 的結構見下圖 5（a），由一個 Self-Attention 模塊加一個全連接的前向網路 FFN（feed-forward network）組成。

每一輪的文檔的表示和對話語句的表示，一起輸入到 Incremental Transformer Encoder（ITE）中去。ITE 的結構如圖 5（b），包括四個子層。先將當前輪次的語句的 embedding 經過一個 Attention 層；然後和當前輪次的文檔表示（上一步 a）的輸出）合併，經過一個 Attention 層；最後再和之前輪次的輸出進行合併，經過一個 Attention 層。需要注意的，是這三個注意力層，都是 multi-head self-attention 結構。最後再經過一個 FFN，得到輸出。

這裡面的 Self-Attentive Encoder，和 ITE 都是多層結構，即上面描述的單元可以繼續累加，組成深層網路。

圖 4 的下部分是解碼部分，包括兩階段解碼。這兩階段的模型結構一樣，只是輸入不同，都包括 4 個子層（圖 5（c）所示）。完整的解碼由 Ny 個兩階段解碼器累加的深層網路組成。

第一階段的輸入有兩個，分別是編碼器的輸出和當前輪次的語句經過 Self-Attentive Encoder（SA）的輸出。其中前三個子層為 multi-head self-attention 結構，第一層的輸入是上一層網路的輸出；第二層的輸入加上了解碼器的輸出，也就是多輪對話中的歷史對話信息；第三層的輸入加上了當前輪次的語句經過 SA 後的結果。最後經過一個 FFN 得到第一階段輸出。

第二階段的流程，和第一階段相比，只是在第二個子層，將歷史的對話信息替換成當前的文檔表示；在第三個子層，將當前輪次語句的信息，換成第一階段的輸出。

圖 5

實驗採用的數據集（Zhou 2018），用 73k 的語句訓練，3.6k 語句驗證，11.5k 的語句做測試。評測指標包括 PPL（perplexity），BLEU，Fluency，Knowledge Relevance 和 Context Relevance。其中後面的三個指標由標註人員在隨機採樣的數據上標註完成。

對比的模型，包括最基礎的 Seq2Seq，Transformer，Hred（Serban 2016）等，和本文的模型的一些擴展變化模型。需要說明的是，本文模型在 PPL 上有個顯著提升（15.11，越小表明更好的性能），原因是解碼器的第二階段極大的提升了結果（圖 6）。

圖 6

論文 6：One Time of Interaction May Not Be Enough: Go Deep with an Interaction-over-Interaction Network for Response Selection in Dialogues

作者：Chongyang Tao，Wei Wu，Can Xu，Wenpeng Hu，Dongyan Zhao，Rui Yan

論文鏈接：https://www.aclweb.org/anthology/P19-1001

本文提出了一個基於檢索的深度交互對話模型，來解決現有模型中，對對話交互信息利用較淺的問題。問題的定義如下：對話數據由 D={（yi，ci，ri）} 三元組組成。其中 ci 是對話的問句，ri 是回復，yi 是標記，表明 ri 是否是 ci 的回復。模型需要計算 ci 和 ri 之間的匹配得分，來表明兩者是否是關聯的。

本文的核心，是定義了一個 Interaction-over-Interaction（IoI）網路。這個網路由 Interaction Block 構成。每一個 block 包含一個自注意力模塊，來抽取問句或回復之間的依賴；一個交互模塊，來對問句和回復之間的交互進行建模；一個壓縮模塊，來將前兩個模塊的結果合併成一個。

圖 7

一個 IoI 模塊的細節如下：給定兩個輸入 Q 和 K，從 Q 到 K 的注意力機製為：

其中 S 為函數：

f 為 ReLU 激活函數，D 為對角陣，和 W 一樣都是模型的參數。然後將公式（1）的結果輸入一個殘差網路和正則化層，再輸入一個 FFN 層：

至此，這一整個流程被定義為 fatt（Q，K）函數：。

定義完 fatt 函數後，再回到 IoI block 的三個模塊：

1. 問句或回復的自注意力模塊：

2. 問句和回復之間的 Interaction 模塊：先經過 fatt 函數，再與輸入進行點乘

3. 壓縮模塊：將上一輪輸入的向量，和（4）（6）（8）的結果（或者（5），（7），（9）的結果）的元素向量進行連接，然後經過一個 ReLU 的激活層，就得到了新一輪的向量。

經過 IoI 網路後，在計算匹配得分時，用到了問句 u 和回復 r 在 IoI 網路中幾個模塊的結果：

再把這三個 M 向量連接後，輸入一個卷積網路（Krizhevsky 2012）來抽取匹配特徵，然後拉平後做一個線性變換，將輸出維度恢復成 embedding 的維度，再連接一個 GRU 來獲取時序的關係，最後經過一個隱藏層，輸出到 sigmoid 函數，得到最終的匹配的分。

模型在三個數據集上做了驗證，評測指標包括 R@N，MAP 和 MRR。整體來看，方法對比現有的模型，效果約有 2% 左右的提升。（做出提升不容易呀）

任務導向的對話（Task-Oriented Dialog）

這個 section 關注的，是如何優化涉及到任務的對話。通常，任務式對話裡面包含有領域和意圖的分類，槽位的挖掘和填充等。

論文 7：Constrained Decoding for Neural NLG from Compositional Representations in Task-Oriented Dialog

作者：Anusha Balakrishnan，Jinfeng Rao，Kartikeya Upasani，Michael White，Rajen Subba

論文鏈接：https://www.aclweb.org/anthology/P19-1080

本文提出了一種新的樹形結構，來更好的表示 Mean Represention（MR）。MR 是一個 key-value 的列表，其中 key 是槽名（slot），value 是槽對應的值。傳統的 MR 表示，是扁平的，因而會丟失槽之間的評論關係。

圖 8 展示了一個原始的句子（Reference 1），改寫成 Flat MR 的例子（E2E MR），以及本文改寫後的樹形 MR 結構（第四行）。相比 Flat MR，樹形 MR 保留了 Slot 之間的關係，比如轉折（Contrast），聯合（Joint）等等。

除此之外，樹形 MR 還有助於加強槽之間的可控性（controllability），而這點在某些特定的對話中尤其重要，比如當用戶指定了某些喜好時。

圖 8

本文構建了一個樹形 MR 的數據集。一個樹形 MR 包括三個要素：

參數（Argument）：表示槽或者實體；

對話行為（Dialog Act）：表示槽或實體的語義功能，比如信息（Inform），推薦（Recommend），肯定（Yes）等；

評論關係（Discourse relation）定義了對話行為之間的關係，比如聯合（Join），轉折（Contrast）等。

數據集的查詢來源於天氣這個話題。構建流程包括 5 個步驟：

查詢收集：由同事收集關於天氣的查詢。

查詢注釋：通過規則來抽取查詢中的關鍵信息片段，比如地點，日期，以及用戶查詢中涉及到的任何屬性。

MR 生成：通過自動規則來生成樹形 MR。這些規則包括了對話行為，以及評論關係的啟發式標記演算法。

回復的生成和注釋：由培訓過的標註人員，根據查詢，寫出他們自然的回復；然後在這個回復上標註出樹形的 MR 結構。

質量評估：將回復給另外一批標註人員，來提供回復的評估，如流暢，正確，自然等等。

圖 9

最終獲得了包含 33k 個樣例的數據集。在這個數據集的基礎上，用 seq2seq 的模型來學習，編解碼主體是帶 attention 的 lstm，輸入是樹形 MR 的結構（圖 9 的第 3 列），輸出是帶回復的樹形 MR 結果（圖 9 中的 Annotated Response）。

其中，在 decoder 中，用了剪枝的演算法，剪枝演算法包括兩方面，一是對樹種的節點進行聚類；二是輸出中的格式驗證，如中括弧的配對等。實驗和基礎的 seq2seq 模型進行了對比，評測方式包括自動評測和人工評測。

論文 8：Learning End-to-End Goal-Oriented Dialog with Maximal User Task Success and Minimal Human Agent Use

作者：Janarthanan Rajendran, Jatin Ganhotra, Lazaros C Polymenakos

論文鏈接：https://arxiv.org/pdf/1808.09996.pdf

基於神經網路的端到端（end-to-end）對話系統在任務式對話中表現良好，但在面對新的用戶行為時，受限於訓練數據的缺失，無法得到預期的結果。這裡的新的用戶行為，不是指歷史數據中完全沒有的，而是在訓練數據中部分出現的，比如在對話記錄或者用戶行為模擬中，刪除掉部分對話語句或者行為。

本文提出了一個端到端的訓練方法，來識別新的用戶行為，以便轉交給人工處理，在轉交的過程中，要考慮移交的成功率和人工的工作量之間的平衡；同時也能從人工的反饋中學習如何處理這種新的用戶行為，更新模型，用於將來的處理。圖 10 描述了系統的整體架構。

圖 10

問題的定義如下：用戶問句 utterance 進入系統後，經過模型 M，變成對話的狀態表示 s；然後由分類器 C 來決定是由人工 H，還是由模型 M 來回復。分類器 C 是需要在嘗試分配和錯誤中不斷修正，因而是採用 Reinforce Learning 來訓練的：

如果分類器選擇 M，並且 M 給出了一個正確回答，會得到一個高獎勵（ 2）；

如果分類器選擇人工 H，會得到一個相對小的獎勵（ 1）；

如果分類器選擇 M，並且 M 給出一個錯誤回答，會得到嚴重懲罰（-4）。

這裡的正確與否，則是通過用戶的反饋來判斷的。這個獎勵函數有助於最大化回復的成功率，並且最小化人的工作量。同時，分類器的梯度更新也會回傳到模型 M，讓 M 能將對話的基本信息和對回復的信任度整合起來。

當分類器選擇人工 H 的時候，H 的回復會被在線的加入到訓練數據中，通過監督學習，來幫助模型學習新的用戶行為。本文的對話模型 M 用的是端到端的記憶網路（memory network）（Sukhbaatar 2015），分類器 C 用的是多層感知機。

為了訓練模型，需要對現有的對話任務數據進行變化，來模擬新的用戶行為。本文基於 bAbI 對話任務（Bordes 2016），構建了一個 Modified bAbI 對話任務。bAbI 是基於飯店預訂的場景的預訂座位任務。

裡面有 5 類 tasks：分別是提交 API 查詢，更新 API 查詢參數，展示選項，提供額外信息，以及這四類的合併。而 Modified bAbI 通過刪除或者替換某些用戶行為來生成對話任務數據。比如，刪除用戶預訂中的提供的價格區間，城市或者電話信息。實驗對比了這種（模型 M 分類器 C）的聯合模型和基礎的端到端記憶網路模型的結果，在準確率上提升很明顯。

論文 9：Multi-Task Networks with Universe, Group, and Task Feature Learning

作者：Shiva Pentyala, Mengwen Liu, Markus Dreyer

論文鏈接：https://arxiv.org/pdf/1907.01791.pdf

多任務學習（Caruana 1993）相比單任務學習，能更好的利用任務間的共性和數據共享，避免個別單任務的訓練數據不足的問題。本文提出了並行網路和串列網路兩種多任務學習的結構，並應用在虛擬助手（virtual assistants）的多領域自然語言理解中。通常，虛擬助手，例如 Alexa，微軟的 cortana，google assistant 等，會涉及到很多領域範圍（domain），比如音樂，交通，日程安排等。在每個 domain 中，又會定義很多意圖（intent），在意圖下，會包含槽位（slot）信息。對話模型對領域和意圖進行分類，抽取並填充槽位信息。

本文通過對任務組合的力度，來抽取單個任務，任務組（task group），以及全體任務（task universe）三類特徵。任務組指的是同領域下的類似的對話任務。具體的模型結構如下：

1. 並行網路結構：如圖 11 所示，i) 不同的任務 a, b, c 都會被輸入到 Universe Encoder 中，生成 Universe features；ii) 同一 group 的任務（x1a, x1b 是一個 group，x2c 是另一個），會送到 Group Encoder 中，生成 Group features；

iii) 每個任務都會被輸入到 Task Encoder 中，生成 Task features；iv) 每個 Task features 會和 Universe features，Group features 連接，作為 Task Decoder 的輸入，得到最後的結果。在這個模型中，三類 feature 是並行生成的。

圖 11

圖 12

2. 串列網路結構：串列網路中，三類 feature 的生成有先後順序。本文提出了三種串列的結構，如圖 12 所示：

Serial: Group features 和 Universe features 並行生成，拼接後輸入到 Task encoder 去生成 Task features；

Serial Highway：和 a 一樣，但是在 Decoder 時，會把 Task features 和前面的 Group features，Universe features 進行拼接；

Serial Highway Swap：先生成 Task features，然後再生成 Group features 和 Universe features，再和 Task features 進行拼接。

因為這些特徵的數據來源有重合，本文在損失函數中加入了對抗損失（adversarial loss）和正交限制（orthogonality constraints），來避免 Task Features 在共享空間中的更新緩慢（creeping）：

在模型的驗證中，選取了意圖分類（Intent classification）和填槽（slot filling) 這兩個任務進行多任務訓練。編解碼框架用的是 Bilstm CRF（如圖 13 所示）。整體的損失函數定義為單個任務的損失函數的加權平均。實驗用的數據集是 Alexa Dataset。從結果上來看，幾個模型對比，提升在 3% 到 5% 左右。

圖 13

論文 10：OpenDialKG: Explainable Conversational Reasoning with Attention-based Walkers over Knowledge Graphs

作者：Seungwhan Moon, Pararth Shah, Anuj Kumar, Rajen Subba

論文鏈接：https://www.aclweb.org/anthology/P19-1081

本文將對話系統和知識圖譜（knowledge graph）結合起來了。在對話中，語句有時候會涉及到知識圖譜中的實體，對話的交互還會涉及到知識點在圖譜上的關係轉移。如圖 14 所示，對話雙方在談論書籍，對話內容涉及到從一本書的實體，跳轉到文學流派，作者等等。本文的工作，集中在三個方面：

提出了一種基於注意力機制的圖解碼器（graph decoder），來從一個大的知識圖譜中有效的尋找一條圖上的推理路徑和實體；

提出一個零樣本學習模型（zeroshot learning model），利用之前輪次的對話語句，和知識圖譜上下文，來對圖解碼器輸出的候選結果進行重排序；

構建了一個包含對話內容和知識圖譜之間映射關係的對話數據集 OpenDialKG，來訓練前面的解碼器以及對話模型。

圖 14

整體模型還是採用 Encoder-Decoder 的架構。其中，每一輪 Encoder 的輸入，由當前輪次的語句中包含的實體，完整的對話語句，和之前輪次的所有語句組成：

實體相關的 embedding，包括實體本身以及實體之間的關係；

句子的 embedding 經過注意力機制的 BiLstm，得到句子的表示；

對話表示（之前輪次的句子）則是用層次 Bilstm（Yang 2016）來編碼。

最終這三類編碼用 modality attention（Moon 2018a,b）合併到一起，modality attention 能依據候選者對任務的重要程度，選擇性的縮小或者放大候選者的權重。整體的 Encoding 過程如圖 15 的左邊。解碼部分的目標，是輸出對應的知識圖譜中的實體，由兩部分損失函數，即下一輪生成正確實體的損失，和知識圖譜上對應的推理路徑的損失相加組成。

第一部分損失通過計算圖譜中的 zeroshot 相關性來得到（Moon 2017），並用於最終實體的重排序。第二部分損失中面臨的問題，是圖譜中的推理路徑數量巨大。本文用基於注意力機制的模型來對不會出現的路徑進行剪枝。具體的剪枝過程，見圖 16 的公式（6），其中 zt 就是注意力機制輸出的上下文向量。路徑損失也被拆分為所有實體的損失之和，加上關係的損失。

圖 15

圖 16

為了訓練模型，本文還構建了一個 OpenDialKG 數據集。OpenDialKG 是在給定 topic 後，由對話中的兩個人來完成，包括了 91K 的對話輪次。每個對話都會和它對應的知識圖譜路徑（這個路徑包含實體，和對話中提及的實體間的關係）相關聯。

數據集的生成過程主要依賴標註人員完成。實驗對比了另外三種演算法 seq2seq（Sutskever 2014），Tri-Lstm（Young 2018）和 Extended Enc-Dec（Parthasarathi 2018），在 R@N 上的提升都很明顯。

論文 11：Transferable Multi-Domain State Generator for Task-Oriented Dialog Systems

作者：Chien-Sheng Wu，Andrea Madotto，Ehsan Hosseini-Asl，Caiming Xiong，Richard Socher，Pascale Fung

論文鏈接：https://www.aclweb.org/anthology/P19-1078

對話狀態跟蹤 DST（Dialogue state tracking）是對話系統的核心部分，來抽取對話中的領域，意圖和槽位信息。現有的 DST 面臨的挑戰，有如下幾點：

槽位的範圍通常都是事先定義好的，然而在實際中，這些信息一方面很難定義完整（Xu 2018），另一方面，即使定義完整了，裡面的數量也會很巨大，比如飯店的名字的集合，因而很難在實際場景中應用。

一個對話中，可能會涉及多個領域（multi-domain）。比如在預訂飯店過程中，用戶可能先詢問飯店，然後預訂交通工具。這種跨領域的對話，導致 DST 需要在對話的每一輪，去決策不同的領域。一個跟蹤信息的三元組（domain，slot，value）有可能需要從對話的不同輪次才能推出來，帶來了多輪映射（multi-turn mapping）問題。

本文針對 multi-domain 的 DST，提出了一個可遷移的對話狀態生成器 Trade（transferable dialogue state generator）。如圖 17 所示，模型由三部分組成：

圖 17

1. Utterance Encoder：編碼器將對話的句子進行編碼表示，任一編碼器結構都可以使用。本文用的是 Bi-GRU（chung 2014）。

2. State Generator：狀態生成器的目標，是直接輸出槽位的值，因而需要將 input source 的文本信息複製過來。這裡採用的複製機制是 soft-gated 複製（McCann 2018），來將詞典的分布和對話語句的分布組合成一個單一分布。然後用 GRU 作為解碼器，來預測每個（domain，slot）對的值。

初始輪，輸入的是 domain 和 slot 的 embedding 的加和；然後每一輪都會添加詞，並生成中間隱藏狀態 h，這個隱藏狀態用來計算詞典空間中的詞的概率分布 P_vocab，以及對話歷史中的 attention 值 P_history：

最終狀態生成器輸出是這兩個 P 值的加權和。

3. Slot Gate：槽位控制門，是一個三分類的分類器，會對每個（domain，slot）對，輸出在（ptr，none，dontcare）三個類別上的概率分布。如果結果是 none 或者 dontcare，對應的 value 值就會被捨棄掉。

最後的訓練過程，優化的是對 State Generator 的輸出，和 Slot Gate 輸出的交叉熵損失。因為在訓練過程中，Domain 和 Slot 的組合由訓練數據決定，會有某個組合完全沒出現的情況。

Trade 結構的架構，能同時去優化（domain，slot）所有組合的出現以及值的選擇，因而會利用不同 domain 之間的共享信息，比如領域 train 和 taxi 都會有槽位 departure。這讓 Trade 有一定的 zeroshot 或 few-shot 能力。

在實驗中，對比了 MDBT（Ramadan 2018），GLAD（Zhong 2018），GCE(Nouri 2018)，SpanPtr（Xu，2018），數據集用的是 Multi-domain Wizard-of-Oz（Budzianowski 2018）。Trade 的性能提升效果很顯著，在多領域上提升達到了 20%，單領域的也有 8%。

新任務

這個 section 關注的，是對話系統的一些新的形式，比如引入對話外的額外信息，或者在某些特定領域，比如慈善或醫療領域的新模型和新應用。

論文 12：Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems

作者：Hung Le，Doyen Sahoo，Nancy F. Chen，Steven C.H. Hoi

論文鏈接：https://www.aclweb.org/anthology/P19-1564

本文解決的問題，和前面的差別很大：在生成對話回復中，除了考慮文本信息，還要考慮相關聯的視頻信息，稱為 Video-Grounded Dialog System（VGDS）。VGDS 需要在給定的視頻（包含圖像和語音）的基礎上，根據視頻內容，視頻標題，和已有的對話語句，來生成最合適的回復。圖 18 是一個 VGDS 的例子。

圖 18

這裡的挑戰，一是視頻信息包含了多幀圖像，因而語義信息不易抽取；二是對話引擎需要整合不同形式的信息特徵。因而 RNN 在這個場景下不夠有效。本文提出了 MTN（Multimodal Transformer Networks），來對視頻編碼，並整合不同形式的信息。MTN 包含三個部分：編碼層，解碼層，和一個自動編碼層（Auto-Encoder Layer）。

1. 編碼層：編碼層包括 Text Sequence Encoders 和 Video Encoders。文本序列編碼包括了 token embedding，position embedding 和正則層（layer normalization）。

視頻編碼在一個 n-video-frame 的滑動窗口內抽取視頻特徵，這個特徵包括了圖像和音頻兩部分。然後用一個 ReLU 激活層將特徵的維度變為和文本的一樣。編碼層的結構如圖 19 所示：

圖 19

2. 解碼層：解碼層由多層網路組成，每一層包含 4 M 個子層，每個子層都包含一個 multi-head attention 機制加一個 position-wise 的前向傳輸層，來處理一個特定的編碼輸出，包括：目標序列的偏移，對話之前輪次的語句，視頻標題，當前輪次語句（對應子層數量中的 4），和視頻中的非文本特徵（對應子層數量中的 M，本文中，M 包含圖像和語音兩種特徵，為 2）。

前向傳輸層由 ReLu 連接的兩個線性變換組成。在每個 attention block 之間，還加入了殘差連接（He 2016）和正則層（Ba 2016）。見圖 20 中的 Decoder（D）；

圖 20

3. 自動編碼層（Auto-Encoder）：加入這一層的目的，是為了解決視頻中的非文本特徵，和對話當前輪次查詢語句的關聯問題。具體包括兩個步驟：

當前輪次的對話語句經過之前的 Encoder 層後，再經過一個 Self-Attention 模塊，得到 query 自身的編碼表示；

視頻中的圖像和音頻信息，與 a）中的 query 編碼分別進入 multi-attention 模塊，得到視頻特徵中的 query-aware 編碼表示。

自動編碼層也是由多層網路組成，每一次包含的 1 M 個子層，也就是上述的 query self-attention（1 個），加上和視頻相關的 query-aware（M 個，這裡 M=2）。

在訓練過程中，損失函數定義為目標序列 T 的損失，和 QAE（自動編碼層）的輸出的損失之和。實驗用的數據集合是 DSTC7（Yoshino 2018），包含了基於 Charades 視頻（Sigurdsson 2016）的對話信息，並設置不同參數，訓倆了 Base 和 Large 兩個模型。在和相關模型的對比上（CorefNMN（Kottur 2018），MN（Das 2017a），HRE（Das 2017a），LF（Das 2017a），模型有了一定的提升。

論文 13：Target-Guided Open-Domain Conversation

作者：Jianheng Tang，Tiancheng Zhao，Chenyan Xiong，Xiaodan Liang，Eric P. Xing，Zhiting Hu

論文鏈接：https://www.aclweb.org/anthology/P19-1565

本文討論的，是如何在一個開放的對話聊天中，將對話引向一個特定的目標。如圖 21 所示的例子：對話從閑聊的「Hi there, how are you doing」開始，對話引擎的目標是將對話引向「e-book」。

這個問題要明確的兩點，一是如何對目標進行有效的定義，二是如何將引導的策略進行編碼。本文通過定義粗粒度的詞（比如：麥當勞，書籍，等）來對目標建模，並控制輸出內容，然後通過設定規則，來接近最終的對話目標。

圖 21

在對話的進行中，為了向目標進行引導，有兩個要求：一是對話的狀態遷移要平穩，這樣的對話流程才會更自然，更可接受；二是目標的最終達成，這是為了避免追求對話的流暢遷移，而一直進行無意義的閑談。這兩個要求是相衝突的，更流暢的遷移可能會導致始終無法接近目標。本文提出了一個分治演算法，來解決這兩個問題。

系統包括三個核心模塊：一個對話輪次級別（turn-level）的遷移預測器，來解決平穩遷移的問題；一個論述級別（discourse-level）的目標導向策略，來接近對話的目標；一個回複檢索器，來生成合適的對話回復。架構如圖 22 所示。

圖 22

遷移預測：這一步的目標，是在給定對話歷史語句的情況下，預測下一個關鍵詞的概率。這一步和目標關鍵詞無關，可以選擇的演算法有多種，如通過計算點之間的互信息 PMI（pointwise mutual information，Church 1990）進行預測，或者深度神經網路。本文用了一種混合核方法，即在給定當前詞和候選詞後，先計算 embedding 的餘弦相似性，然後將結果傳給由 K 個 RBF 核組成的核層，再將 K 維結果傳給一個全連接層，得到該候選詞和當前詞的親密度得分。

目標導向策略：在給定了對話的當前輪次的關鍵詞後（如上圖右側的 basketball），找到它和目標詞（圖中的 Dance）的親密度得分（0.47），下一輪的候選詞是那些和目標詞有更高親密度得分的（party：0.62）。這個策略保證了每一輪都會更接近目標詞。

回複檢索：這一個模塊輸出最後的回復語句。具體做法是用 RNN 來編碼對話歷史和關鍵詞，以及訓練集中的候選回復語句。然後計算候選語句和對話歷史的點乘，候選語句和關鍵詞的點乘；這兩個結果進行連接後再傳給一個全連接網路和 sigmoid 函數，得到候選語句的匹配得分。

本文的實驗是基於 PersonaChat 的數據集（Zhang 2018），並對數據先做了關鍵詞的標註抽取。評測指標用了 R@N 和 MRR，本文對比了遷移預測中不同的預測方法對結果的影響，在絕大部分結果上，混合核方法效果最好。

論文 14：Persuasion for Good：Towards a Personalized Persuasive Dialog System for Social Good

作者：Xuewei Wang，Weiyan Shi，Richard Kim，Yoojung Oh，Sijia Yang，Jingwen Zhang，Zhou Yu

論文鏈接：https://www.aclweb.org/anthology/P19-1566

本文的側重點，其實不在模型方面，而是在數據集的收集整理方法上。解決的問題，是如何在對話中採用不同的勸說策略，來勸說人們對慈善機構進行捐助。採用的方法，是設計了一個數據採集的策略，並對數據中涉及到的勸說策略進行分析和分類。然後基於分類的結果，來訓練一個分類器。數據收集的方法是本文的重點。作者先在 Amazon Mechanical Turk 平台上，設計了一個在線的任務。任務包括四個部分：

任務前的調查：任務參與者在任務之前，先接受一個調查，來獲取參與者心理上的偏好特徵。這裡用了四個調查問卷，從這個調查結果，得出了一個 23 維的心理特徵向量，每個維度是一個心理特徵的得分；

對話：完成調查後，會給兩個參與者隨機分配勸說者和被勸者的角色。對於勸說者，會提示一些不同策略的勸說樣句，而被勸者只是提供了慈善機構的背景信息。每一個對話要求至少持續 10 輪；

捐助確認：在對話完成後，勸說者和被勸者被要求提交達成的捐助額；

任務後的調查：參與者完成一個有關自己社會背景信息的調查，如年齡，收入等。

這個數據收集過程持續了 2 個月，獲得了 1017 個對話，參與者有 1285 個人，其中 42% 的勸說者自己也進行了捐助，54% 的被勸者進行了捐助。

在獲取了數據集後，還設計了一種標註方案（Krippendorff 2004）來對對話中的勸說者的語句進行勸說策略的標註，雖然被勸者的語句也進行了標註，但只是用於記錄而已。標註方案先由 4 個研究助理在小數據集上驗證其有效性，然後應用在全數據上。最終，標記出來的策略分為勸說呼籲（Persuasive appeal）和勸說詢問（Persuasive inquiry）兩大類：

勸說呼籲：包含 7 個類別，分別是 Logical appeal（邏輯上的說服），Emotion appeal（情感上的說服），Credibility appeal（用慈善機構的信譽度來說服），Foot-in-the-door（先說服小額度的捐助，有意向後再勸說大額度的），Self-modeling（先表明自身的捐助意向，再說服對方），Personal story（講述一些個人的故事來說服對方），Donation information（提供一些捐助的流程和細節，來說服對方）；

勸說問詢：包含 3 個類別，分別是 Source-related inquiry（詢問對方是否知道慈善機構），Task-related inquiry（詢問對方關於捐助任務的觀點和期望），Personal-related inquiry（詢問對方以往的捐助經歷）。

圖 23

在對數據分完類後，用混合 Recurrent-CNN 來對對話進行分類，用到的 embedding 包括對話語句的 embedding，對話上下文的 embedding，輪次位置的 embedding，情感，和字元的 embedding。模型結構如圖 23。在實驗中，主要比較的是引入不同特徵組合時，分類的準確率和 F1 值。

論文 15：Improving Neural Conversational Models with Entropy-Based Data Filtering

作者：Richard Csaky，Patrik Purgai，Gabor Recski

論文鏈接：https://www.aclweb.org/anthology/P19-1567

本文關注的，是通過數據集的優化，來提升開放式對話模型的效果。基於神經網路的對話模型，在開放式對話中，容易產生通用的回復，缺乏多樣性。因而，本文通過剔除掉具有高熵值的對話語句，來修正數據集，進而提升對話系統的性能。

一個高熵值的例子，如「what did you do today」，這個問句的答案會有很多種回復；而「what is the color of sky」的熵值就比較低，因為回復很明確。其中，計算熵值的時候，對對話中的 source 和 target 做了區分（source 表示對話的發起方，target 為應答方）。在給定數據集 D 時，Target 和 source 的熵值的定義如下：

另外，先對語句聚類，也會對實驗效果有影響。聚類能反映出問句的回答是否是語義上的多樣。比如「how old are you」，雖然答案也會有很多種，但語義上都是接近的。一個句子可能有低熵值，但是如果組成的 cluster 有高熵值，這個 cluster 也會從數據集中刪除掉。一個 source cluster 的目標熵值定義如下：

其中 C 是所有的 cluster。在刪除 cluster 時，高熵的 source cluster 和 target cluster 都會被刪掉。

聚類的方法，可以用 Mean shift algorithm（Fukunaga 1975），或者 sent2vec（https://github.com/epfml/sent2vec），即句向量的方法。

在實驗中，對話模型用了 Transformer 的 encoder-decoder 架構，測試了在數據集 DailyDialog，Cornell，Twitter 上的熵值分布情況，並測試了不同的聚類演算法對結果的影響。

論文 16：標題：Observing Dialogue in Therapy: Categorizing and Forecasting Behavioral Codes

作者：Jie Cao，Michael Tanana，Zac E. Imel，Eric Poitras，David C. Atkins，Vivek Srikumar

論文鏈接：https://www.aclweb.org/anthology/P19-1563

本文主要是針對心理治療領域，提出了兩個分類模型，在治療師和患者的對話中幫助治療師。本文的模型，沒有去生成對話的回復，而是對已有的當前輪次的語句，和接下來可能出現的語句的標籤進行分類和預測。研究是基於 Motivational Interviewing（MI，Miller 2012）進行，對話的語句由 Motivational Interviewing Skill Codes（MISC，Miller 2003）來標註。一個標註的例子如圖 24 所示。

任務的定義如下：輸入包括 MI 上的對話的語句 u，對話歷史 H，每個語句對應的人 s，以及語句對應的 MISC 標籤 l。模型需要提供兩個實時的輸出，包括：

分類：對對話中的最後一個語句 u_n 進行分類；

預測：給定了 n 輪的對話，和第 n 1 輪的人，來預測還沒發生的第 n 1 輪的語句的分類標籤。

圖 24

在構建的模型中，用層次 GRU 來對對話級別進行編碼，用詞級別的 attention 來抽取語句中比較關鍵的詞信息，用 multi-head attention 來抽取語句級別的對分類結果比較重要的語句。另外，在數據中存在標籤不平衡的問題，本文還設定了一個平衡權重α，和 focal loss（Lin 2017）函數來解決數據不平衡問題，如下面的公式表示：

實驗中，先用 MISC 對所有的數據進行標註，並對比了不同的模型配置在分類和預測這兩個任務上的效果，在分類任務上能提升約 6%，在預測任務上提升約 4% 左右。

參考文獻：

Mohammad Norouzi, Samy Bengio, Navdeep Jaitly, Mike Schuster, Yonghui Wu, Dale Schuurmans, et al. 2016. Reward augmented maximum likelihood for neural structured prediction. In Advances In Neural Information Processing Systems, pages 1723–1731

Jiwei Li, Will Monroe, Tianlin Shi, Sebastien Jean, Alan Ritter, and Dan Jurafsky. 2017b. Adversarial learning for neural dialogue generation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2157–2169.

Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. 2018. Personalizing dialogue agents: I have a dog, do you have pets too? In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, ages 2204–2213.

Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In Proceedings Of The International Conference on Representation Learning (ICLR 2015).

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ?ukasz Kaiser, and Illia Polosukhin. 2017. Attention is ll you need. In Advances in Neural Information Processing Systems, pages 5998–6008

Shuiwang Ji, Wei Xu, Ming Yang, and Kai Yu. 2013. 3d convolutional neural networks for human action recognition. IEEE transactions on pattern nalysis and machine intelligence, 35(1):221–231.

Ryan Lowe, Nissan Pow, Iulian V. Serban, and Joelle Pineau. 2015b. The ubuntu dialogue corpus: A large dataset for research in unstructured multi-turn dialogue systems. Proceedings of the SIGDIAL 2015 Conference, page 285294

Yu Wu, Wei Wu, Chen Xing, Zhoujun Li, and Ming Zhou. 2017. Sequential matching network: A new architecture for multi-turn response selection in retrieval-based chatbots. Proceedings ofthe 55th Annual Meeting ofthe Association for Computational Linguistics, pages 496–505.

Xiangyang Zhou, Lu Li, Daxiang Dong, Yi Liu, Ying Chen, Wayne Xin Zhao, Dianhai Yu, and Hua Wu. 2018. Multi-turn response selection for chatbots with deep attention matching network. Proceedings ofthe 56th Annual Meeting ofthe Association for Computational Linguistics, pages 1–10.

Kangyan Zhou, Shrimai Prabhumoye, and Alan W Black. 2018. A dataset for document grounded conversations. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 708–713.

Iulian V Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, and Joelle Pineau. 2016. Building end-to-end dialogue systems using generative hierarchical neural network models. In Thirtieth AAAI Conference on Artificial Intelligence.

Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 2012. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105.

Sainbayar Sukhbaatar, Jason Weston, Rob Fergus, et al. 2015. End-to-end memory networks. In NIPS

Antoine Bordes, Y-Lan Boureau, and Jason Weston. 2016. Learning end-to-end goal-oriented dialog. arXiv preprint arXiv:1605.07683.

Rich Caruana. 1993. Multitask learning: A knowledge-based source of inductive bias. In ICML, pages 41–48.

Zichao Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. 2016. Hierarchical attention networks for document classification. In NAACL

Seungwhan Moon, Leonard Neves, and Vitor Carvalho. 2018a. Multimodal named entity recognition for short social media posts. NAACL. 854

Seungwhan Moon, Leonard Neves, and Vitor Carvalho. 2018b. Zeroshot multimodal named entity disambiguation for noisy social media posts. ACL.

Seungwhan Moon and Jaime Carbonell. 2017. Completely heterogeneous transfer learning with attention: What and what not to transfer. IJCAI

Ilya Sutskever, Oriol Vinyals, and Quoc V Le. 2014. Sequence to sequence learning with neural networks. In NIPS.

Tom Young, Erik Cambria, Iti Chaturvedi, Minlie Huang, Hao Zhou, and Subham Biswas. 2018. Augmenting end-to-end dialog systems with commonsense knowledge. AAAI

Prasanna Parthasarathi and Joelle Pineau. 2018. Extending neural generative conversational model using external knowledge sources. EMNLP.

Puyang Xu and Qi Hu. 2018. An end-to-end approach for handling unknown slot values in dialogue state tracking. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1448–1457. Association for Computational Linguistics

Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. 2014. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555.

Bryan McCann, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. 2018. The natural language decathlon: Multitask learning as question answering. arXiv preprint arXiv:1806.08730

Osman Ramadan, Pawe? Budzianowski, and Milica Gasic. 2018. Large-scale multi-domain belief tracking with knowledge sharing. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 432–437. Association for Computational Linguistics.

Victor Zhong, Caiming Xiong, and Richard Socher. 2018. Global-locally self-attentive encoder for dialogue state tracking. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1458–1467. Association for Computational Linguistics.

Elnaz Nouri and Ehsan Hosseini-Asl. 2018. Toward scalable neural dialogue state tracking model. In Advances in neural information processing systems (NeurIPS), 2nd Conversational AI workshop. https://arxiv.org/abs/1812.00899.

Pawe? Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Inigo Casanueva, Stefan Ultes, Osman Ra-madan, and Milica Gasic. 2018. Multiwoz-a largescale multi-domain wizard-of-oz dataset for taskoriented dialogue modelling. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 5016–5026.

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778.

Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. 2016. Layer normalization. arXiv preprint arXiv:1607.06450.

Koichiro Yoshino, Chiori Hori, Julien Perez, Luis Fernando D』Haro, Lazaros Polymenakos, Chulaka Gunasekara, Walter S. Lasecki, Jonathan Kummerfeld, Michael Galley, Chris Brockett, Jianfeng Gao, Bill Dolan, Sean Gao, Tim K. Marks, Devi Parikh, and Dhruv Batra. 2018. The 7th dialog system technology challenge. arXiv preprint.

Gunnar A Sigurdsson, Gul Varol, Xiaolong Wang, Ali Farhadi, Ivan Laptev, and Abhinav Gupta. 2016. Hollywood in homes: Crowdsourcing data collection for activity understanding. In European Conference on Computer Vision, pages 510–526. Springer.

Satwik Kottur, Jose MF Moura, Devi Parikh, Dhruv Batra, and Marcus Rohrbach. 2018. Visual coreference resolution in visual dialog using neural module networks. In Proceedings of the European Conference on Computer Vision (ECCV), pages 153–169.

Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, Jose MF Moura, Devi Parikh, and Dhruv Batra. 2017a. Visual dialog. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, volume 2.

Klaus Krippendorff. 2004. Reliability in content analysis: Some common misconceptions and recommendations. Human communication research, 30(3):411–433.

Keinosuke Fukunaga and Larry Hostetler. 1975. The estimation of the gradient of a density function, with applications in pattern recognition. IEEE Transactions on information theory, 21(1):32–40.

William R Miller and Stephen Rollnick. 2012. Motivational interviewing: Helping people change. Guilford press.

William R Miller, Theresa B Moyers, Denise Ernst, and Paul Amrhein. 2003. Manual for the motivational interviewing skill code (misc). Unpublished manuscript. Albuquerque: Center on Alcoholism, Substance Abuse and Addictions, University of New Mexico.

Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollar. 2017. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988

本文為機器之心專欄，轉載請聯繫原作者獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※備戰秋招：國內大廠面試指南，GitHub六千星
※「決戰紫禁之巔」之深度學習框架篇：Keras VS PyTorch

TAG:機器之心 |