從搜索到智能客服：阿里開放強化學習技術演進與實踐書籍

新聞 02-06

近日，阿里開放了一本描述強化學習在實踐中應用的書籍《強化學習在阿里的技術演進與業務創新》，這本書重點描述了阿里巴巴在推動強化學習輸出產品及商業化的實踐過程。例如在在搜索場景中對用戶的瀏覽購買行為進行 MDP 建模、在推薦場景中使用深度強化學習與自適應在線學習幫助每?個用戶迅速發現寶貝、在智能客服中賦予阿里?蜜這類的客服機器?對應的決策能力、在廣告系統中實現了基於強化學習的智能調價技術，因而根據顧客的當前狀態去決定如何操作調價。點擊「閱讀原文」下載此書籍。

下載地址：http://techforum-img.cn-hangzhou.oss-pub.aliyun-inc.com/1517812754285/reinforcement_learning.pdf

強化學習（RL）是關於序列決策的一種工具，它可以用來解決科學研究、工程文理等學科的一系列問題，它也是圍棋程序 AlphaGo 的重要組成部分。在 Richard Sutton 的描述中，互動式學習幾乎是所有學習與智能理論的基石，而強化學習就是這樣的一種理想條件下實現互動式學習的方法。

在探討阿里的強化學習實踐書籍前，我們需要明確幾個基本概念。首先，監督學習和強化學習之間的主要區別在於收到的反饋是評估性的還是指導性的。指導性反饋提示如何達到目標，而評估性反饋告訴你達到目標的程度。監督學習一般是基於指導性反饋來解決問題，而強化學習則基於評估性反饋解決問題。因此在很多情景中，強化學習這種評估性的反饋使其具有格外的優勢與強大的性能。

因為存在這些差別，阿里表明基於監督學習方式的信息提供手段，缺少有效的探索能力，系統傾向於給消費者推送曾經發生過行為的信息單元（商品、店鋪或問題答案）。而強化學習作為?種有效的基於用戶與系統交互過程建模和最大化過程累積收益的學習方法，在?些阿里具體的業務場景中進行了很好的實踐並得到?規模應用。

實際上正如阿里的這本書所述，如果把搜索引擎看作智能體（Agent）、把用戶看作環境（Environment），則商品的搜索問題可以被視為典型的順序決策問題（Sequential Decision making Problem）：

(1) 用戶每次請求 PV 時，Agent 做出相應的排序決策，將商品展示給用戶；

(2) 用戶根據 Agent 的排序結果，給出點擊、翻頁等反饋信號；

(3) Agent 接收反饋信號，在新的 PV 請求時做出新的排序決策；

(4) 這樣的過程將?直持續下去，直到用戶購買商品或者退出搜索。

在以上問題的形式化中，Agent 每?次策略的選擇可以看成?次試錯（Trial-and-Error），在這種反覆不斷地試錯過程中，Agent 將逐步學習到最優的排序策略。而這種在與環境交互的過程中進行試錯的學習，正是強化學習（Reinforcement Learning，RL）的根本思想。

除了上述所述基於強化學習的實時搜索排序，阿里在很多任務或功能上都採用了強化學習的解決方案。以下展示了該書籍的主要目錄，讀者可以了解到底阿里在哪些業務或實踐上藉助強化學習而實現更好的性能。

第一章基於強化學習的實時搜索排序策略調控

1.1 背景

1.2 問題建模

1.2.1 強化學習簡介

1.2.2 狀態定義

1.2.3 獎賞函數設定

1.3 演算法設計

1.3.1 策略函數

1.3.2 策略梯度

1.3.3 值函數的學習

1.4 獎賞塑形

1.5 實驗效果

1.6 DDPG 與梯度融合

1.7 總結與展望

第二章延遲獎賞在搜索排序場景中的作用分析

2.1 背景

2.2 搜索排序問題回顧

2.3 數據統計分析

2.4 搜索排序問題形式化

2.5 理論分析

2.5.1 馬爾可夫性質

2.5.2 折扣率

2.6 實驗分析

第三章基於多智能體強化學習的多場景聯合優化

3.1 背景

3.2 問題建模

3.2.1 相關背景簡介

3.2.2 建模方法

3.3 應用

3.3.1 搜索與電商平台

3.3.2 多排序場景協同優化

3.4 實驗

3.4.1 實驗設置

3.4.2 對比基準

3.4.3 實驗結果

3.4.4 在線?例

3.5 總結與展望

第四章強化學習在淘寶錦囊推薦系統中的應用

4.1 背景

4.1.1 淘寶錦囊

4.1.2 錦囊的類型調控

4.1.3 ?作摘要

4.2 系統框架及問題建模

4.2.1 系統框架

4.2.2 問題建模

4.3 演算法及模型設計

4.3.1 主體框架

4.3.2 分層採樣池

4.3.3 基準約減

4.3.4 演算法流程

4.4 實驗與總結

第五章基於強化學習的引擎性能優化

5.1 背景

5.2 問題建模

5.2.1 狀態定義

5.2.2 動作空間設計

5.2.3 狀態轉移函數

5.2.4 獎賞函數的設計

5.3 演算法設計

5.3.1 Loss Function

5.3.2 Actor-crtitic 方法

5.4 理論分析

5.5 實驗效果

5.6 總結

第六章基於強化學習分層流量調控

6.1 背景

6.2 問題建模

6.2.1 Dynamic Action Boundary by CEM

6.3 實驗效果

6.4 總結與展望

第七章風險商品流量調控

7.1 背景

7.1.1 為什麼進行風險商品流量調控

7.1.2 為什麼使用強化學習調控

7.2 基於強化學習的問題建模

7.2.1 狀態空間的定義

7.2.2 動作空間的定義

7.2.3 獎賞函數的定義

7.2.4 模型選擇

7.2.5 獎賞函數 scale

7.3 流量調控系統架構

7.4 線上效果

第八章虛擬淘寶

8.1 背景

8.1.1 強化學習?臨的問題

8.1.2 虛擬淘寶

8.2 學慣用戶行為：監督學習

8.3 學慣用戶意圖：逆強化學習

8.3.1 逆強化學習概述

8.3.2 學慣用戶意圖

8.3.3 生成對抗式模仿學習

8.4 構建用戶行為模擬器

8.4.1 問題建模

8.4.2 演算法設計

8.4.3 實驗結果

第九章組合優化視角下基於強化學習的精準定向廣告 OCPC 業務優化

9.1 背景

9.2 問題建模

9.2.1 獎賞

9.2.2 動作

9.2.3 狀態定義

9.3 建模粒度

9.4 模型選擇

9.5 探索學習

9.6 業務實戰

9.6.1 系統設計

9.6.2 獎賞設計

9.6.3 實驗效果

9.7 總結與展望

第十章策略優化方法在搜索廣告排序和競價機制中的應用

10.1 業務背景

10.2 ?告排序和競價的數學模型和優化方法

10.3 ?向?告商、?戶和平台收益的排序公式設計

10.4 系統簡介

10.4.1 離線模擬模塊

10.4.2 離線強化學習進?排序策略模型初始化

10.5 在線排序策略模型優化

10.6 實驗分析

10.7 總結

第十一章 TaskBot －阿里小蜜的任務型問答技術

11.1 背景和問題建模

11.2 模型設計

11.2.1 Intent Network

11.2.2 Belief Tracker

11.2.3 Policy Network

11.2.4 模型

11.3 業務實戰

11.4 總結

第十二章 DRL 導購－阿里小蜜的多輪標籤推薦技術

12.1 背景

12.2 演算法框架

12.3 深度強化學習模型

12.3.1 強化學習模塊

12.3.2 最終模型

12.4 業務實戰

12.5 總結和展望

最後，強化學習在阿里巴巴內部的實踐遠不止於此，這本電子書只介紹了其中的?部分。我們希望這本書能有助於讀者了解強化學習在業界的應用，並從實踐和業務的角度了解阿里在商業化技術的能力。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※一逛商場，安踏、馬可西尼的櫃檯竟然都有人工智慧？
※別說只看到了中國來客，CES仍在預言2018年AI加持下的科技圈走勢

TAG:機器之心 |