當前位置:
首頁 > 知識 > 基於結構化 SVM 進行序列標註

基於結構化 SVM 進行序列標註

作者 seaboat ,本文作者為雷鋒網 AI 研習社撰寫的獨家稿件,未經雷鋒網 AI 研習社許可不得轉載。

關於SVM

SVM 即支持向量機,常用於二分類模型。它主要的思想是:

1.它是特徵空間上間隔最大的線性分類器;

2.對於線性不可分的情況,通過非線性映射演算法將低維空間的線性不可分的樣本映射到高維特徵空間,高維特徵空間能夠進行線性分析。

什麼是結構化

其實機器學習中,如果按照輸出空間不同可以分為:

二元分類 (binary classification)

多元分類 (multiclass classification)

回歸問題 (regression)

結構化預測 (structured prediction)

其中前面三類都是我們常見且經常用的,第四種結構化預測重點體現在結構化上,前面三類的輸出都是標籤類別或者回歸值之類的單變數,而結構化預測輸出是一種結構化的數據結構,比如輸入一句話,輸出是一顆語法樹。此外,結構還可以是圖結構、序列結構等。


結構化 SVM

把前面的 SVM 與結構化結合起來就是結構化 SVM 了。它為了處理更加複雜的彼此之間互相存在依賴關係的結構數據,對傳統 SVM 進行了改進,可以說結構化 SVM 是在傳統 SVM 的基礎上擴展出來的。結構化 SVM 使用時主要涉及學習和推理兩個過程,與大多數機器學習演算法一樣,學習其實就是確定模型的參數的過程,而推理就是根據學習到的模型對給定的輸入進行預測的過程。

假設給定了訓練集,其中 X 和 Y 是兩個集合,結構化 SVM 就是通過這些樣本來訓練一個輸入輸出對的函數。預測時,對於給定的輸入x,在所有

y∈Y

中取得最大值的

y

即為預測項。


學習過程

學習結構化數據就是要找到上述的一個判別函數,使之在判別函數確定後,對給定的輸入x,能選擇最大化函數 f 值的 Y 作為輸出。假定函數 f 的形式為,

其中判別函數,w 是參數向量,而 Ψ(x,y) 可以看成是輸入輸出對的特徵表示,代表將輸入輸出對合併起來的特徵向量,它的形式取決於具體問題。 一般會假設F(x,y;w)是 (x,y) 和參數向量ww 的線性函數,即。

接著還得再定義一個損失函數

Δ:Y×YR

,它應該滿足時,當時。那麼有經驗風險函數,

所以我們的目標是要找到一個使得經驗風險函數最小,而它可能存在經驗風險為 0 的情況,此時,滿足如下條件

其中,。根據間隔最大化來求解,固定 w 的長度,求能使得間隔最大的w。兩個超平面的距離為最大化其實就等價於最小化,這時已經可以轉成 SVM 中問題的形式了,

但實際情況中經驗風險為 0 可能會導致過擬合現象,這時要考慮容忍訓練集中某些樣本錯誤分類,從而引入鬆弛變數,於是優化問題變為:

約束條件引入損失函數的影響,得

那麼現在不管是經驗風險為 0 還是不為 0,剩下要做的事就是求解上述優化問題,即根據上述各個式子中的約束條件解得最優值 W。怎麼求解還是個難題,如果樣本數較少且 Y 狀態數較少,能用傳統的二次優化求解。

而實際情況中樣本數和狀態數都較多,於是產生的約束條件規模非常大,總數量為,其中 n 為樣本數,|Y | 為 y 可能的狀態數。所以在求解過程中需要先將上述優化問題轉換成對偶形式,採用割平面訓練法,具體優化過程不考慮所有約束條件,從無約束問題出發,逐步選擇約束直到精度滿足期望後停止。


IOB 標記

常用的標註策略有 IOB 標記,即塊的第一個符號處標註為 B,塊內部的符號標註為 I,塊外的符號標註 O。其中 B 為 Begin,表示開始;I 為 Intermediate,表示中間;O 為 Other,表示其他。比如:

我明天去北京。

OBIOBI


實現例子

使用 dlib 庫實現結構化 SVM 序列標註功能,以下僅僅是一個簡單的功能。對 「我 昨 天 在 學 校 看 到 小 明」,「小 紅 剛 剛 才 去 晚 自 習」 中的人名進行標註,並且使用 BIO 標記方式,通過訓練後對 「我 昨 天 在 學 校 見 到 大 東」 句子進行人名提取。

輸出分別為

NLP 工程師入門實踐班:基於深度學習的自然語言處理

三大模塊,五大應用,手把手快速入門 NLP

海外博士講師,豐富項目經驗

演算法 + 實踐,搭配典型行業應用

隨到隨學,專業社群,講師在線答疑

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

用真知灼見創造未來,AI學術大牛20萬字觀點精選
Tensorflow中learning rate decay 的奇技淫巧

TAG:AI研習社 |