收藏！CNN與RNN對中文文本進行分類-基於TENSORFLOW實現

知識 05-26

如今，TensorFlow大版本已經升級到了1.3，對很多的網路層實現了更高層次的封裝和實現，甚至還整合了如Keras這樣優秀的一些高層次框架，使得其易用性大大提升。相比早起的底層代碼，如今的實現更加簡潔和優雅。

本文是基於TensorFlow在中文數據集上的簡化實現，使用了字元級CNN和RNN對中文文本進行分類，達到了較好的效果。

數據集

本文採用了清華NLP組提供的THUCNews新聞文本分類數據集的一個子集（原始的數據集大約74萬篇文檔，訓練起來需要花較長的時間）。數據集請自行到THUCTC：一個高效的中文文本分類工具包下載，請遵循數據提供方的開源協議。

本次訓練使用了其中的10個分類，每個分類6500條數據。

類別如下：

體育, 財經, 房產, 家居, 教育, 科技, 時尚, 時政, 遊戲, 娛樂

數據集劃分如下：

訓練集: 5000*10

驗證集: 500*10

測試集: 1000*10

從原數據集生成子集的過程請參看helper下的兩個腳本。其中，copy_data.sh用於從每個分類拷貝6500個文件，cnews_group.py用於將多個文件整合到一個文件中。執行該文件後，得到三個數據文件：

預處理

data/cnews_loader.py為數據的預處理文件。

read_file(): 讀取文件數據;

build_vocab(): 構建辭彙表，使用字元級的表示，這一函數會將辭彙表存儲下來，避免每一次重複處理;

read_vocab(): 讀取上一步存儲的辭彙表，轉換為表示;

read_category(): 將分類目錄固定，轉換為表示;

to_words(): 將一條由id表示的數據重新轉換為文字;

preocess_file(): 將數據集從文字轉換為固定長度的id序列表示;

batch_iter(): 為神經網路的訓練準備經過shuffle的批次的數據。

經過數據預處理，數據的格式如下：

CNN卷積神經網路

配置項

CNN可配置的參數如下所示，在cnn_model.py中。

CNN模型

具體參看cnn_model.py的實現。

大致結構如下：

訓練與驗證

運行 python run_cnn.py train，可以開始訓練。

若之前進行過訓練，請把tensorboard/textcnn刪除，避免TensorBoard多次訓練結果重疊。

在驗證集上的最佳效果為94.12%，且只經過了3輪迭代就已經停止。

準確率和誤差如圖所示：

測試

運行 python run_cnn.py test 在測試集上進行測試。

在測試集上的準確率達到了96.04%，且各類的precision, recall和f1-score都超過了0.9。

從混淆矩陣也可以看出分類效果非常優秀。

RNN循環神經網路

配置項

RNN可配置的參數如下所示，在rnn_model.py中。

RNN模型

具體參看rnn_model.py的實現。

大致結構如下：

訓練與驗證

這部分的代碼與 run_cnn.py極為相似，只需要將模型和部分目錄稍微修改。

運行 python run_rnn.py train，可以開始訓練。

若之前進行過訓練，請把tensorboard/textrnn刪除，避免TensorBoard多次訓練結果重疊。

在驗證集上的最佳效果為91.42%，經過了8輪迭代停止，速度相比CNN慢很多。

準確率和誤差如圖所示：

測試

運行 python run_rnn.py test 在測試集上進行測試。

在測試集上的準確率達到了94.22%，且各類的precision, recall和f1-score，除了家居這一類別，都超過了0.9。

從混淆矩陣可以看出分類效果非常優秀。

對比兩個模型，可見RNN除了在家居分類的表現不是很理想，其他幾個類別較CNN差別不大。

還可以通過進一步的調節參數，來達到更好的效果。

- 加入AI學院學習 -

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 AI講堂 的精彩文章:

※有趣！旋轉吧！換裝少女：一種可生成高解析度全身動畫的GAN
※注意力機制在自然語言處理中的應用

TAG:AI講堂 |