當前位置:
首頁 > 最新 > 小菜與老鳥之機器學習08

小菜與老鳥之機器學習08

機器學習利器 Orange 介紹

【關鍵字】Orange

Orange 是什麼?

我們來看下官網對 Orange 的介紹。

Data Mining Fruitful and Fun

Open source machine learning and data visualization for novice and expert. Interactive data analysis workflows with a large toolbox.

Orange 是一款面向新手和專家的開源機器學習和數據可視化的軟體,具有大型工具箱的互動式數據分析工作流程,在挖掘數據方面非常有效並且富有樂趣。

本篇文章針對的版本是 Orange 最新版本3.1.4,後面版本升級有可能界面等有所不同,夥伴們要注意。

Orange 最大的特點就是拖拽、可視化、易於理解。軟體菜單有 5 大模塊:

1. Data 數據:表示數據,數據可以來自於默認集合、文件、資料庫表、繪製點數據等等,非常豐富

2. Visualize 可視化:可以看分布圖、散點圖、樹形圖、熱力圖等等

3. Model 模型:包含邏輯回歸、線性回歸、向量機、隨機森林樹等模型,非常豐富

4. Evaluate 評估:評估函數用來測試學習演算法的好壞

5. Unsupervised 無監督:包含了聚類等無監督學習演算法

我們可以通過這 5 大模塊拖拽構建出一個數據挖掘或者機器學習流程。

舉個非常簡單的例子:

我們從 Data 裡面拖拽 File 出來,雙擊 File, 默認的數據會載入 iris 鳶尾花的數據集,我們需要把數據按照 8:2 的比例拆分成訓練集和測試集,此時從 Data 裡面拖拽出 Data Sampler (數據取樣器),雙擊

選擇 80% 的比例。

此時數據取樣器會將 File 裡面的數據按照 8:2 拆分出訓練集和測試集,那麼如何看這兩個集合的數據?

從 Data 裡面拖拽出 Data Table,然後用Data Sampler 的輸出(右側弧)連接到 Data Table 的輸入(左側弧),此時弧線上顯示 Data Sample -> Data,表示訓練集,然後再拖拽出一個 Data Table,使用 Data Sampler 的輸出再次連接該 Data Table,此時弧線上顯示還是 Data Sample -> Data,如何讓新的 Data Table 顯示是測試集數據呢?

雙擊 Data Sampler 與第二個 Data Table 連接的弧線,此時出現

點擊 clear all 按鈕,清空掉連接,然後連接 Remaining Data 與右側 Data

大功告成,我們可以重命名這兩個 Data Table 為訓練集和測試集,雙擊訓練集可以看到集合中的數據。

更厲害的還在後面。我們可以選擇 Visualize 可視化這些數據。

繼續從 Visualize 中拖拽出 Scatter Plot (散點圖)和 Distributions(分布圖) 兩個可視化方式。

然後分別看下可視化圖。

散點圖

分布圖-描述了特徵值的分布情況

是不是非常直觀。

最後給大家節選一些官網上的其他例子圖,鼓勵大家在學習的過程中去發現更多有趣的用法。記住,拖拽出來後,多用 F1 查看幫助文檔。RTFM!

樹形查看器-回歸

決策樹

更多閱讀

- Orange官網:https://orange.biolab.si/

- https://github.com/biolab/orange3


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

機器學習頂會 ICML 2018 開始了
機器學習預測2018年世界盃冠軍隊

TAG:機器學習 |