R語言聚類演算法在新媒體中的場景應用
— 壹看板導讀 —
DT時代,大數據、機器學習對各行各業的從業者並不陌生,機器學習應用場景比較集中在醫療、保險、金融等大數據量級領域。新媒體領域中,大數據可以為我們解決什麼場景下的問題呢?本篇文章將給出如何利用聚類演算法對新媒體文章內容價值做評估的解決方案,為今後文章內容采編做指導,用R語言實現自動和半自動化。
什麼是聚類?「物以類聚,人以群分」
對事物進行分類是人們認識事物的出發點,也是人們認識世界的一種重要方法。聚類就是將數據分組成多個類別(cluster),使得同一個類別的對象之間具有較高的相似度,不同類別的對象相異。
新媒體文章價值評估就是對歷史發布在新媒體的文章進行研究分類,數據量級越大效果越明顯,針對每類的文章下定義標籤,為今後文章的內容和采編方向做指導。
聚類圖解
以微信公眾號為例:文章內容評估所用到的媒體數據指標有哪些呢?
聚類指標需要根據業務結果來選擇,對新媒體運營影響比較大的指標可以選入模型。
數據獲取層面,從運營分析的角度來說,部分指標無法從公眾號後台運營界面直接獲得,這時需要藉助第三方工具,比如智能分析工具壹看板,壹看板需要分析方授權其與微信公眾號的appid埠鏈接,然後即可獲得實時更新的數據。
數據已有的前提下,為什麼要聚類分析?如何聚類分析?比如,微信公眾號的頭條和次頭條位置會對文章價值評估帶來巨大差異,需要同等曝光位置的文章放在一起聚類:頭條和頭條聚類,次頭條和次頭條單獨聚類。詳細指標及層級,見下圖:
指標框架
註:該演示數據僅60條,且值都比較小,文章聚類效果會稍不明顯,僅用於提供思路,做文章分析建議以1年以上歷史數據分析。
數據結果展示
基於以上,針對新媒體文章的指標,可以將文章數據做解讀並歸結為3類:
第一類:粉絲增長一般,文章價值比較差,傳播力度比較差,粉絲不活躍;
第二類:粉絲增長比較好,文章比較有價值,傳播力度比較強,粉絲比較活躍;
第三類:粉絲取關人數多,文章價值一般,傳播力度一般,粉絲不活躍;
接下來則需要運營人員針對每類文章進行單篇的具體分析:為什麼好,又為什麼差——找到這一類文章整體的特點,建立文章價值的評估,然後今後文章的采編和內容方向就很容易把控了。
R代碼供參考
---------END----------
TAG:壹看板 |