當前位置:
首頁 > 知識 > 最新!今日頭條新聞文本分類數據集

最新!今日頭條新聞文本分類數據集

數據來源:今日頭條客戶端

數據格式:

6552431613437805063_!_102_!_news_entertainment_!_謝娜為李浩菲澄清網路謠言,

之後她的兩個行為給自己加分_!_佟麗婭,網路謠言,快樂大本營,李浩菲,謝娜,觀眾們

每行為一條數據,以_!_分割的個欄位,從前往後分別是 新聞ID,分類code(見下文),分類名稱(見下文),新聞字元串(僅含標題),新聞關鍵詞

分類code與名稱:

數據規模:

共382688條,分布於15個分類中。

採集時間:

2018年05月

實驗結果:

以0.7 0.15 0.15做分割。歡迎提交你使用本數據集的實驗結果~

以上Acc較低的原因:

1,數據不均衡,部分類目數據太少

2,部分分類之間本身模稜兩可,例如故事、文化、旅行

詳見text-class xxxx內代碼

後續可以優化的地方:

1,更多的數據

2,更全的分類

因為分類不全,例如缺少美食等,導致實際使用時,分哪裡都不對的情況出現。

3,更均衡的分類數據

4,引入正文

- 加入AI學院學習 -


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI講堂 的精彩文章:

歡迎加入「數字貨幣投資群」:鏈群!
3月20日20點 中國科學院博士開講!

TAG:AI講堂 |