Scikit-learn 發布 0.20版本!新增處理缺失值、合併Pandas等亮點功能
整理 | Jane
出品 | AI科技大本營
之前一直預告 Scikit-learn 的新版本會在 9 月發布,在馬上就要結束的 9 月,我們終於迎來了 Scikit-learn 0.20。
此版本修復了大量的錯誤和功能,增強了 Scikit-learn 庫,改善了文檔和示例。在此對 Scikit-learn 的貢獻者表示感謝!
新版本已經上線,小夥伴們是不是已經迫不及待想去試試了,在此之前,營長要特別提醒大家:Scikit-learn 0.20 是支持 Python 2.7 和 Python 3.4 的最後一個版本,從 Scikit-learn 0.21 開始,就只支持 Python 3.5 及更高版本的 Python。
Scikit-learn 作為基於 Python 語言的機器學習工具,一直備受關注。它是簡單高效的數據挖掘與分析工具,建立在 Numpy、SciPy 和 Matplotlib 上,亦可在多種環境中重複使用,更重要的是 Scikit-learn 是開源的。
下面我們就來一起看一下新版本有哪些值得大家關注的亮點:
1.增加對數據科學用例的支持;如缺失值、類別變數、異類數據及分布異常的特徵/目標。之前由 NaNs 表示的特徵缺失值,現在被按列預處理(如scalers)接受。每個特徵都無需考慮缺失值,包含缺失值的數據也可以被轉換。儘管缺少數據,新模塊 impute 為學習提供了估算器。
2.ColumnTransformer 處理 Pandas 中不同特徵或不同列的情況。DataFrame 需要不同的預處理。字元串或 Pandas 的 類別數據列都可以用 OneHotEncoder 或 OrdinalEncoder 進行編碼。
3.TransformedTargetRegressor 可以幫助把回歸目標轉換為模型。PowerTransformer 和 KBinsDiscretizer 將加入 quantileTransformer 作為 非線性變換。
4.除此之外,還為幾個估計器(KMeans、Bayesian ridge 和 KernelDensity)增加了支持樣本權重的功能,並且改進了估計器( MLPRegressor, GradientBoostingRegressor 和 SGDRegressor)的停止標準。
5.伴隨此版本還首次公開發布了由 Joel Nothman 開發的通用術語和 API 列表( Glossary of Common Terms and API Elements),旨在幫助用戶和貢獻者更熟悉 Scikit-learn 中的術語和資源。
除了這些亮點外,還修復了很多 models 和 bug,大家可以自行查看 Scikit-learn 0.20 更新說明。
Scikit-learn 0.20 新版本說明:
http://scikit-learn.org/dev/whats_new.html#version-0-20
核心術語表:
http://scikit-learn.org/dev/glossary.html#glossary
Scikit-learn 中文版本(還未更新至 0.20)
http://sklearn.apachecn.org/cn/0.19.0/
好啦~到這裡大家就準備去更新你的 Scikit-learn 吧!在發布新版本之前我們就給大家預告過一個教程(Scikit-learn 中 合併 Pandas 後的新教程),這次大家可以在新版本中直接試驗一下,有問題我們下面評論區再聊~
2018 AI開發者大會
拒絕空談,技術爭鳴
2018 AI開發者大會(AI NEXTCon)由中國IT社區CSDN與矽谷AI社區AICamp聯合出品的AI技術與產業年度盛會。多年經驗淬鍊,如今蓄勢待發:將有近百位中美頂尖AI專家、知名企業代表以及千餘名AI開發者齊聚北京,進行技術解讀和產業論證。我們只講技術,拒絕空談,誠摯邀請AI業內人士一起共鑄人工智慧新篇章!
2018 AI開發者大會首輪重磅嘉賓及深度議題現已火熱出爐,掃碼搶「鮮」看。國慶特惠,購票立享5折優惠!
※蘋果Siri團隊被合併,由谷歌前高管直接領導
※英偉達發布RTX 2000系列顯卡,「實時光線追蹤」究竟能為遊戲帶來什麼?
TAG:AI科技大本營 |