當前位置:
首頁 > 知識 > 如何用Python編寫你最喜歡的R函數?

如何用Python編寫你最喜歡的R函數?

翻譯:陳之炎

校對:盧苗苗

本文共2136字,建議閱讀5分鐘。

本文介紹了採用創建一個Python腳本,用該腳本模仿R風格的函數的方法來方便地進行統計。

是用R語言還是用Python語言?這是一個曠日持久的爭論。在此,我們可以嘗試採用折中路線:創建一個Python腳本,用該腳本模仿R風格的函數,來方便地進行統計!

簡介

用R語言還是用Python語言?這是數據科學和機器學習的一場大的爭論。毫無疑問,這兩種語言在最近幾年都取得了巨大的進展,成為數據科學、預測分析和機器學習的首選編程語言。事實上,在IEEE新近的一篇文章中,Python取代C++成為2018年的頂級編程語言,R已經牢牢地保住了它在前10名中的位置。

然而,這兩種編程語言之間存在著一些本質的差異。R主要是為數據分析問題的統計分析和快速原型化而開發的工具。另一方面,Python作為一種通用的現代面向對象語言,與C或Java相似,它具有更簡單的學習曲線和更為靈活的行為方式。因此,R在統計學家、定量生物學家、物理學家和經濟學家中仍然非常受歡迎,而Python逐漸成為日常腳本、自動化、後端web開發、分析和通用機器學習框架的首選語言,Python語言的技術支持基礎比較廣泛,同時還有許多開源社區。

如何在Python環境中模仿函數式編程?

R語言的函數編程特性為用戶提供了非常簡單有效地界面,用於快速計算概率,並為數據分析問題提供必要的描述性/推理統計。例如,僅僅使用一個緊緻函數調用就能回答下面的問題,這是不是很神奇?

如何計算數據向量的平均/中值/模型?

如何計算服從正態分布的某一事件的累積概率?如果該分布是泊松分布,則如何計算?

如何計算一系列數據點的四分位數間距?

如何根據學生的t分布生成少量隨機數?

在R語言編程環境中,這些您都能實現。

另一方面,Python腳本編寫能使分析人員在各種分析管線中創造性地使用這些統計數據。

為了結合這兩種語言的優勢,需要設計一個簡單的基於Python的包裝類庫,它包含最常用的函數,這些函數涉及以R風格定義的概率分布和描述性統計信息,用戶可以快速地調用這些函數,而無需調用Python統計庫,並弄明白所有方法和參數。

最為便捷的R-函數的Python包裝類腳本

我用Python編寫了一個腳本,用來定義在簡單統計分析中最為便捷和最被廣泛使用的R函數。導入這個腳本之後,您將能夠像在R編程環境中一樣自然地使用那些R-函數。

這個腳本的目標是利用簡單的Python子程序,來模仿R風格的統計函數,從而快速計算密度/點估計、累積分布、分位數,並為各種重要的概率分布生成隨機變數。為了保持R的風格,沒有使用類分層結構,只在該文件中定義了一些原始函數,這樣用戶便可以方便地導入這個Python腳本,並在需要時使用所有函數,而僅僅只需做一個名稱的調用。

注意,在此使用了「模仿」這個詞。我並沒有聲稱要模仿R真正的功能編程範式:那些由深層次的環境設置和這些環境與對象之間組成的複雜的相互關係。這個腳本只允許我(同時也希望有無數其他Python用戶)能夠快速啟動Python程序或Jupyter筆記本(一種互動式筆記本,支持運行 40 多種編程語言)導入腳本,並在短時間內開始進行簡單的描述性統計。這就是目標,僅此而已。

或者,你可能已經會用R語言編碼,剛開始學習和使用Python進行數據分析。你可以高興地看到和使用Jupyter筆記本里的一些眾所周知的函數,這些都和你使用的R語言環境中的方法類似。

簡單實例

例如,如果需要計算數據點向量的TuKEY五數綜合。你只需調用一個簡單函數FiVunm並傳遞給向量,它便在一個Numpy數組中返回五數綜合(最小值;第1四分位數(Q1);中位數(Q2);第3四分位數(Q3);最大值。)。

lst=[20,12,16,32,27,65,44,45,22,18]

fivenum(lst)

> array([12. , 18.5, 24.5, 41. , 65. ])

或者,你想知道以下問題的答案:

假設一台機器平均每小時輸出10件成品,標準差為2,輸出模式服從近似正態分布。在接下來的一小時內,機器輸出至少7台但不超過12台的概率是多少?

答案基本上是這樣,

利用pNorm…,只需要一行代碼就可以得到答案。

pnorm(12,10,2)-pnorm(7,10,2)

> 0.7745375447996848

或者,對於如下問題:

假設你有一枚硬幣,每次拋硬幣的時候,都有60%的轉動概率,玩的是10次拋擲的遊戲。如何用這枚硬幣計算出所有可能的贏球數(從0到10)?

只需使用一個dbinom…函數和幾行代碼就可以獲得一個很好的條形圖。

probs=[]

import matplotlib.pyplot as plt

for i in range(11):

probs.append(dbinom(i,10,0.6))

plt.bar(range(11),height=probs)

plt.grid(True)

plt.show()

目前已經實現的函數

目前,已經實現了的、可以用於快速調用的R風格函數在以下腳本中實現。

均值、中值、方差、標準差

TuKEY五數綜合、矩陣的IQR

矩陣的協方差或兩個向量之間的協方差

密度、累積概率、分位函數和隨機變數生成,用於下列分布:正態分布,均勻分布,二項分布,泊松分布,F分布,Student』s-t分布,卡方分布,Beta分布,和Gamma分布

後續工作

這項工作還正在進行之中,我計劃在腳本中添加一些更為便捷的R-函數。例如,在R單行命令中,lm可以得到一個最小二乘擬合模型,該模型具有所有必要的推斷統計量(P值、標準誤差等)。這將是多麼的簡短和緊湊!另一方面,Python中的標準線性回歸問題通常是使用Scikit-Learning來解決,需要用到更多的腳本來實現它。我計劃使用Python的statsmodel後端結合這個單一函數線性模型來實現。

原文標題:

How to write your favorite R functions?—?in Python?

https://towardsdatascience.com/how-to-write-your-favorite-r-functions-in-python-11e1e9c29089

譯者簡介

陳之炎,北京交通大學通信與控制工程專業畢業,獲得工學碩士學位,歷任長城計算機軟體與系統公司工程師,大唐微電子公司工程師,現任北京吾譯超群科技有限公司技術支持。目前從事智能化翻譯教學系統的運營和維護,在人工智慧深度學習和自然語言處理(NLP)方面積累有一定的經驗。業餘時間喜愛翻譯創作,翻譯作品主要有:IEC-ISO 7816、伊拉克石油工程項目、新財稅主義宣言等等,其中中譯英作品「新財稅主義宣言」在GLOBAL TIMES正式發表。能夠利用業餘時間加入到THU 數據派平台的翻譯志願者小組,希望能和大家一起交流分享,共同進步


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 數據派THU 的精彩文章:

應對程序員面試,你必須知道的8大數據結構

TAG:數據派THU |