[Stata][Statistics]データクリーニング

stata

Photo by Angela Roma on Pexels.com

2022.09.302021.09.10

Table of Contents

Stataでのデータクリーニング

データに欠損値や全角文字など、均一でない場合のクリーニング方法。まずはいらない変数を削除する。dropについてはこちら。

drop [var1] [var2] ...

次はrename

rename (var1 var2 ...) (newvar1 newvar2 ...)

データにはしばしば全角文字が含まれている。例えば0が全角の「０」になっていたり、結果が「あり」になっていたり。この場合、まず

tab var
ta var

で中身を確認して、一つ一つ置き換えていく。

replace var = "0" if var == "あり" | var == "死亡"

注意しなくていけないのは、最初のreplaceの部分で、0ではなく”0″とするところ。数字の0にしてしまうとtype erorrが出る。後はdestringを行えば数字になる。

destring var, replace

欠損値を0にする時は

replace var = 0 if var == .

また、replaceは破壊的置き換えなので、recodeを用いるのが安全である。その分変数は増加していくが。

recode var (1 = 0) (2= 1), gen(newvar)