我是如何用機器學習技術幫助 HR 省時間的

知識 05-02

引言

假設簡歷庫中有 10000 份名為「軟體工程師」的簡歷。一位 HR 在搜索「Android 工程師」時僅關注名稱為「Android 工程師」的簡歷，她將遺漏 912 份有可能匹配的簡歷；如果這位 HR 願意花時間從頭到尾通讀每一份「軟體工程師」的簡歷，將其中真正從事 Android 研發的簡歷篩選出來，那麼她需要多閱讀 9088 份無效的軟體工程師簡歷。假設閱覽一份簡歷需要 15 秒，這項工作將佔據她 38 小時。

低區分度的簡歷——隱藏的招聘雷區

搜索和閱讀簡歷佔據了招聘的大部分時間。在 HR 搜索或閱讀簡歷時，需要根據簡歷名稱或工作內容對簡歷類別進行判斷，簡歷類別的「區分度」越高，HR 越容易通過搜索定位到對應的簡歷，也越容易甄別出簡歷與空缺崗位的匹配度。

例如，HR 在招聘一名「Android 工程師」時，非常喜歡那些在職位名稱為「Android 工程師」的簡歷，因為可以很方便地搜索和識別。這部分簡歷可以定義為高區分度簡歷。

可令人頭疼的是，許多候選人的簡歷並未照顧到招聘者的使用體驗。例如一名軟體工程師在他的簡歷中提到了多項編程技能，並將簡歷名稱定為「軟體工程師」，給系統搜索定位到這份簡歷造成了極大的難度。這就意味著：由於 JD 的編寫方式與候選人編寫簡歷方式的天然差異，大量履歷匹配的簡歷在搜索時被遺漏，許多工作內容里包含這些關鍵字的簡歷（比如招聘專員）實際卻又毫不相關。

大量的低區分度簡歷增加了甄別難度

我們從簡歷庫中抽樣了 1479818 份互聯網行業中包含「工程師」的簡曆數據，按簡歷名稱進行統計，從高到低排序後截取 Top15 展示如下：

我是如何用機器學習技術幫助 HR 省時間的

由統計數據可以看出，類別區分度低的簡歷在整體簡曆數據中佔比較大。例如互聯網行業中包含大量「軟體工程師」、「高級軟體工程師」、「軟體研發工程師」、「研發工程師」簡歷，占抽樣總數的 25.7%，但這部分簡歷卻無法輕易判斷候選人對應的技術方向。

實際上，Java 工程師、PHP 工程師、後端開發工程師等均可稱為軟體工程師。有眾多 Title 為「軟體工程師」的簡歷，需要根據職位或工作描述進一步判斷具體類別。

例如對簡歷進行搜索時，輸入「Python 工程師」，簡歷名稱中含 Python 的簡歷可能較少，導致搜索結果數量豐富度不高。但如果通過模型可以判斷簡歷名稱為軟體工程的具體角色，增強簡歷的區分度，則可在軟體工程師的簡歷中篩選屬於 Python 工程師的簡歷，進一步提高搜索的豐富度。

通過機器學習方法提高角色識別的準確度

1、建立合理的職位理解

增強簡歷的區分度，可以理解為「如何更準確地理解職位，包括職位的不同表達方式，以及與該職位相關的技能模型」——這件事可以基於一張專業詞表完成。

例如我們定義一個簡單的詞表——「軟體工程師」為一級類別，其下屬二級技能類別分為 Java、C++、PHP、.NET、Python、Delphi、Perl 等。這張詞表定義了明確的職位 / 技能關係，當詞表在「閱讀」一份名為「軟體工程師」的簡歷時，它實際閱讀的是上述技能。

聘寶的知識圖譜更為複雜，除技能分支外，還包含行業、公司等眾多維度。

我是如何用機器學習技術幫助 HR 省時間的

2、如何進行高效的角色分類識別計算

深度學習方法近期在文本處理領域大受歡迎，但需要注意的是它們的訓練以及測試過程十分緩慢，以至於工程應用時門檻頗高。

在進行了一系列的技術方案調研與比較後，我們嘗試對比分析了三種機器學習的文本分類演算法： TextGrocery，fastText，Naive Bayes。

TextGrocery—是一個基於 LibShortText 和結巴分詞的短文本分類工具，基於線性核 SVM 分類器，使用二元分詞（Bigram），不去停頓詞，不做詞性過濾同時支持中文和英文語料，讓文本分類變得簡單。

fastText—由 FAIR（Facebook AI）開發的一款快速文本分類器，提供簡單而高效的文本分類和表徵學習的方法，出自 Word2Vec 作者 Mikolov 的論文《Bag of Tricks for Efficient Text Classification》

fastText 適合大型數據 + 高效的訓練速度，能夠訓練模型「在使用標準多核 CPU 的情況下 10 分鐘內處理超過 10 億個辭彙」，與深度模型對比，fastText 能將訓練時間由數天縮短到幾秒鐘。FastText 的性能要比時下流行的 word2vec 工具明顯好上不少，也比其他目前最先進的詞態辭彙表徵要好。

我是如何用機器學習技術幫助 HR 省時間的

Naive Bayes——由貝葉斯定理延伸而來的概率模型，它根據每個特徵的概率確定一個對象屬於某一類別的概率。該方法假設所有特徵需要相互獨立，即任一特徵的值和其他特徵的值沒有關聯關係。

在自然語言處理領域，處理的的數據可以看做是在文本文檔中標註數據，這些數據可以作為訓練數據集來使用機器學習演算法進行訓練。

在訓練樣本時，構建可以表徵文本的特徵向量 (辭彙表)，並根據這個特徵向量將訓練集表徵出來，計算各個類別的頻率作為該類的先驗概率，和在每個類別條件下各個特徵屬性的條件概率，分類時，根據貝葉斯公式計算待分類句子在每一類別的後驗概率，取最大值作為其分類。

我是如何用機器學習技術幫助 HR 省時間的

一個簡單的分類識別實驗

為更好地分析不同技術手段在增強簡歷區分度上的效果，我們進行了一項簡單的比較實驗，來展現演算法是如何把低區分度的簡歷如「軟體工程師」進行具體的技能方向分類的。

1、實驗數據集的準備：

選取 680731 份根據職位名稱判斷屬於二級類別的工程師簡曆數據，隨機抽樣取 80% 的數據做訓練數據，剩餘 20% 份作測試數據。

我是如何用機器學習技術幫助 HR 省時間的

2、實驗效果表現：

通過實驗我們發現，通過機器學習方法，我們能夠快速識別低區分度簡歷並進行準確的分類，從而能夠極大的降低人工搜索與閱讀的時間。

我是如何用機器學習技術幫助 HR 省時間的

對比上面模型結果， fastText 模型基於詞袋的針對英文的文本分類方法，組成英文句子的單詞是有間隔的；而中文文本是連續的，因此對中文文本，則需分詞去標點轉化為模型所需要的數據格式，但分類效果一般，尤其是類別間區分度不是很大的情況下。另外參數調優對模型結果影響較大，但模型優勢在於訓練時間很短。所以 fastText 模型更適合做類別區分度更大且講究分類效率的應用場景，比如將一則新聞自動劃歸到財經、軍事、社會、娛樂等板塊。

TextGrocery 模型是專門針對短文本的分類模型，直接輸入文本，無需做特徵向量化的預處理，不去停頓詞，不做詞性過濾，優雅的 API 介面，但模型準確率和模型訓練時間在此角色預測模型中不是太突出。

Naive Bayes 為傳統的文本分類模型，特徵向量化的預處理相對繁瑣、訓練時間較長，但在分類類別多文本區分度不大的情況下，分類效果相比其他兩種演算法更為優秀。這個實驗結果側面說明，在產品實現時勿過度追求「時髦」的技術。對某一項特定業務來說，有助於業務實現更優效果的技術就是最好的技術。

聘寶在面對低區分度簡歷時的角色識別演算法，吸收結合了上述各類演算法的特點，面對不同場景條件時搭配應用，實現了更優的分類效果，在 TMT 行業主要職位類型上的識別準確率高於 75%。

以「軟體工程師」為例子，在聘寶中輸入屬於軟體工程師的職位描述，預測出可能的角色，效果如下圖：

我是如何用機器學習技術幫助 HR 省時間的

對於其他行業低區分度的簡歷，同樣可以訓練出對應的模型。如果單個行業預測類別不用過細的話，可以將眾多行業數據混合一起訓練模型進行預測。

基於該實驗的樣本數據，假設簡歷庫中有 1 萬份名為「軟體工程師」的簡歷。一位 HR 在搜索「Android 工程師」時僅關注簡歷名稱為「Android 工程師」的簡歷，她將遺漏 912 份有可能匹配的簡歷——這些簡歷均被冠以「軟體工程師」的職位名稱；如果這位 HR 願意花時間從頭到尾通讀每一份「軟體工程師」的簡歷，將其中真正從事 Android 研發工作的簡歷篩選出來，那麼她需要多閱讀 9088 份無效的軟體工程師簡歷，假設閱覽一份簡歷需要 15 秒，這項工作將佔據她 38 小時。

角色識別除了在簡歷檢索方面的應用，在其他方面也有廣泛的應用空間。如薪資預測，根據工作描述預測角色作為特徵變數，將有助於提高預測薪資的準確性。

又例如簡歷解析，將簡歷詳情頁的各個區塊作為文本，預測各區塊所屬的信息類型（如工作經驗、教育經歷等）後再使用對應的解析程序對區塊進行解析，將大大提高簡歷詳情頁面的解析效率。

我們始終相信技術可以提高工作效率，也正因此我們在簡歷的分析與匹配工作上持續深耕三年，相信在機器學習技術的幫助下，HR 的招聘工作將變得更加省時高效。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※Data Science三類職業方向：機器學習、數據分析和數據科學
※人工智慧和機器學習——這些流行詞你Get到了嗎？
※機器學習流行趨勢一覽
※看看大神的思路！機器學習界網紅7分鐘教你如何搭建Chatbot？
※這家公司正在影響大公司決策，還開發了一款機器學習優化引擎

TAG:機器學習 |

您可能感興趣

※我是怎麼用機器學習技術找女票的
※我是怎麼用機器學習技術找到女票的
※什麼是機器學習
※我們該如何學習機器學習中的數學
※谷歌推出 AR 顯微鏡，用機器學習技術幫助實時檢測癌細胞
※新手如何開始AI機器學習？你也可以成為技術大牛
※我是如何入門機器學習的呢
※AI可以沒有機器學習？
※機器學習SVM模型分類技術應用
※機器學習1：什麼是機器學習？
※如何用機器學習挑選座駕？
※人工智慧和機器學習將如何影響SEO的內容？
※必讀 | 我們該如何學習機器學習中的數學
※這款智能機器人採用DNA模擬技術，可預測未來，也能自主學習
※蘋果將給Siri加入機器學習技術能識別設備主人
※人工智慧之機器學習篇——並行機器學習
※人工智慧——如何通過機器學習，讓你的業務更加智能
※讓機器學習如虎添翼：存儲廠商爭相利用GPU增強系統性能
※觀點｜我們該如何學習機器學習中的數學
※機器學習應用程序：如何將AI和ML應用到您的應用程序中