最新!今日頭條新聞文本分類數據集
知識
05-18
數據來源:今日頭條客戶端
數據格式:
6552431613437805063_!_102_!_news_entertainment_!_謝娜為李浩菲澄清網路謠言,
之後她的兩個行為給自己加分_!_佟麗婭,網路謠言,快樂大本營,李浩菲,謝娜,觀眾們
每行為一條數據,以_!_分割的個欄位,從前往後分別是 新聞ID,分類code(見下文),分類名稱(見下文),新聞字元串(僅含標題),新聞關鍵詞
分類code與名稱:
數據規模:
共382688條,分布於15個分類中。
採集時間:
2018年05月
實驗結果:
以0.7 0.15 0.15做分割。歡迎提交你使用本數據集的實驗結果~
以上Acc較低的原因:
1,數據不均衡,部分類目數據太少
2,部分分類之間本身模稜兩可,例如故事、文化、旅行
詳見text-class xxxx內代碼
後續可以優化的地方:
1,更多的數據
2,更全的分類
因為分類不全,例如缺少美食等,導致實際使用時,分哪裡都不對的情況出現。
3,更均衡的分類數據
4,引入正文
- 加入AI學院學習 -
※歡迎加入「數字貨幣投資群」:鏈群!
※3月20日20點 中國科學院博士開講!
TAG:AI講堂 |