Stataでのデータクリーニング
データに欠損値や全角文字など、均一でない場合のクリーニング方法。まずはいらない変数を削除する。dropについてはこちら。
https://www.stata.com/manuals/ddrop.pdf
drop [var1] [var2] ...
次はrename
rename (var1 var2 ...) (newvar1 newvar2 ...)
データにはしばしば全角文字が含まれている。例えば0が全角の「0」になっていたり、結果が「あり」になっていたり。この場合、まず
tab var
ta var
で中身を確認して、一つ一つ置き換えていく。
replace var = "0" if var == "あり" | var == "死亡"
注意しなくていけないのは、最初のreplaceの部分で、0ではなく”0″とするところ。数字の0にしてしまうとtype erorrが出る。後はdestringを行えば数字になる。
destring var, replace
欠損値を0にする時は
replace var = 0 if var == .
また、replaceは破壊的置き換えなので、recodeを用いるのが安全である。その分変数は増加していくが。
recode var (1 = 0) (2= 1), gen(newvar)
関連リンク
変数の確認方法(one/twoway-tabulate)
tabstatの使い方、カテゴリーごとの要約量について
カテゴリー変数の作成
コメント