Stata中的十個雕蟲小技(下)
關於數據管理的七個雕蟲小技
(一)數據的合併
可能有一些讀者並不理解這個數據合併有什麼用處。當然對於忠實的CGSS用戶來說可能不會涉及到,但是現在越來越多的類似於CFPS、CHARLS等數據在社區、家庭、個人等層面都收集數據,這就涉及到合併的問題,最可怕的是CHARLS,他的數據分為還幾個模塊提供給使用者,如果不會合併基本無法使用。
[雕蟲小技4]merge
merge命令是stata中常用的數據橫向合併命令。舉個例子,merge合併的原理基本類似於我們在excel里增加「列」,而下面介紹的append是增加「行」屬於縱向合併。
數據的橫向合併基本要使用如下命令
merge 1:m ID using XXX.dta
codebook _merge
keep if _merge==3
drop _merge
這裡面需要注意的是第一行命令,如果被合併進來的數據與原數據數量是對等的,也就是說兩個數據行數完全一樣且id完全匹配,那麼1:m就應該改為1:1;如果是後合併進來的數據行數多,那麼就使用1:m;反之就是m:1。
[雕蟲小技5]append
append主要是用於縱向數據合併,這個命令使用起來非常簡單直接就
append xxx.dta
(二)stata14.0的漢字亂碼轉換
[雕蟲小技6]stata14.0的漢字亂碼轉換
*數據所在位置
cd /file/*直到存儲數據的最後一個文件夾;並且需要注意,此時Stata必須保正沒有打開任何數據*/
*數據名稱
unicode analyze xxx.dta
unicode encoding set GB18030
unicode translate xxx.dta,transutf8
這組命令能夠解決絕大部分數據亂碼問題,但是又一些還解決不了,例如CFPS2014,CHFS等數據。
(三)變數生成
[雕蟲小技7]手動生成分類變數,防止軟體無法識別
在社會科學分類變數的地位毋庸置疑,所以我們也需要對其格外關照,一般情況下軟體可以自動識別,1分類的而分類變數,而其他的分類及本都會默認為連續變數。我們有兩個辦法防止軟體誤以為是連續變數
(1)生成一個新變數(比較麻煩):tab x,gen(xd)
(2)直接在原變數前加i.例如i.x
[雕蟲小技8]分類變數參照組設置
分類變數在回歸中的參照組設置軟體默認將作為參照組,或者是第一個或最後一個分類,當然我們有的時候可能會想讓其他類別作為參照,其中一個辦法就是重新編碼,但是比較麻煩,我們可以不轉換,直接用命令ib.將ib後面的數字作為參照值,例如:
logistic gxy ib3.edu
就表示把edu這個變數的第三個分類當作參照組
[雕蟲小技9]年份的提取
「林子大了什麼鳥都有」,數據看多了什麼亂碼七糟的格式都會有,例如CGSS2006的數據中出生年這個關鍵變數的報告方式是「年月日」這就讓人很頭疼了,當然這種方式讓我們獲得了更多的信息比如星座,如果想在這樣的數據格式中提取年份變數可以使用下面這個命令:
gen year=year(x)
[雕蟲小技10]回歸表的輸出
使用stata分析完數據的最後一步當然是要將結果輸出出來,使用下面這組命令可以直接輸出出一般論文要求的回歸分析表格式:
ologit y x1 x2 x3/*任意回歸模型*/
est sto m1/*將上面這個模型保存為m1,當然也可以叫別的*/
esttab m1.rtf,se r2 mtitle star(+ 0.1 * 0.05 ** 0.01)/*把m1輸出出來,輸出包括標準誤,r平方,和顯著性水平*/
這種方法輸出的最後文件格式是.rtf(多信息文本格式),應該保存在執行stata時cd的文件夾中。下圖是使用這一命令直接輸出的表:
至此,我主要為大家介紹了關於ststa中的10個雕蟲小技,這些小技巧可能並不會被我們每個人所經常用到,但是一旦需要使用則是非常奏效的,希望能給大家帶來一定的幫助。我也為大家把這些命令整理成了do文件,方便大家存在電腦里以備不時之需。
新年將至,祝大家在新的一年裡p
歡迎大家踴躍投稿,內容有關人文社會科學的即可,可以是學術前沿思想介紹、學術論文寫作與發表、各種定量研究技術和方法介紹、無論是有關統計學、大數據、R、stata、Python、GIS可視化等等,還是有關數據分析與處理,我們都歡迎哦!有償徵稿!!有償徵稿!!
投稿要求:
1、務必原創、禁止抄襲;
2、務必準確、詳細,有例子,有數據,有截圖;
注意事項:
1、所有投稿都會經過本公眾號運營團隊成員的審核,審核通過才可錄用,一經錄用,我們會在推文里註明作者署名,並有稿酬提供;
2、郵件請註明投稿,郵件名為「投稿+推文名稱+作者+聯繫方式」;
以人文之情懷
以學術為志業
···········
再次期待,並熱烈歡迎各位對人文社會學科感興趣的朋友們,無論是關於學術前沿思想介紹、還是有關人文社科定量研究方法和技術、無論是有關統計學、大數據、R、stata、Python、GIS可視化等等,都可以積極給我們投稿,我們是有償徵稿呦!!
2018年,無錫群學教育科技有限公司攜人文社科新方法,祝大家新年快樂!學習進步!事業有成!我們將在新的一年裡,為大家帶來更多的乾貨分享,敬請關注!
※18年必備闊腿褲,讓你做個潮流原宿女生,把俏皮可愛表現的淋漓精緻
※養大我要多少錢?長大了還你們
TAG:全球大搜羅 |