[Stata][Statistics]データクリーニング

crop woman showing blank banner stata
Photo by Angela Roma on Pexels.com

Stataでのデータクリーニング

データに欠損値や全角文字など、均一でない場合のクリーニング方法。まずはいらない変数を削除する。dropについてはこちら。

https://www.stata.com/manuals/ddrop.pdf

drop [var1] [var2] ...

次はrename

rename (var1 var2 ...) (newvar1 newvar2 ...)

データにはしばしば全角文字が含まれている。例えば0が全角の「0」になっていたり、結果が「あり」になっていたり。この場合、まず

tab var
ta var

で中身を確認して、一つ一つ置き換えていく。

replace var = "0" if var == "あり" | var == "死亡"

注意しなくていけないのは、最初のreplaceの部分で、0ではなく”0″とするところ。数字の0にしてしまうとtype erorrが出る。後はdestringを行えば数字になる。

destring var, replace

欠損値を0にする時は

replace var = 0 if var == .

また、replaceは破壊的置き換えなので、recodeを用いるのが安全である。その分変数は増加していくが。

recode var (1 = 0) (2= 1), gen(newvar)

関連リンク

変数の確認方法(one/twoway-tabulate)
tabstatの使い方、カテゴリーごとの要約量について
カテゴリー変数の作成

コメント

タイトルとURLをコピーしました