(初心者向け)Stataでデータを記述するコマンド(1)

統計分析ソフトウェアのStataで、初心者がまず基本統計量(平均、中央値など)を記述したり、表やヒストグラムを描いてみたりする時に使うコマンドを3つ紹介します。


1. summarize (変数A), detail

・変数Aについて、平均、標準偏差、中央値(四分位範囲)、最小値、最大値などを計算できます。
,detailをつけずにsummarize (変数A)だけにすると、平均や標準偏差は表示されますが、中央値などが表示されません(Stataでは「,detail」のように「,(カンマ)」の後に書くコマンドを「オプション」と呼びます)。
・基本的に ,detailをつけるようにして問題ないと思います。
・summarizeと毎回打つのが面倒であれば、「sum」や「su」と略しても機能します。

[応用] 条件を絞って基本統計量を算出
・summarize (変数A) if (条件式), detail
と条件式を付け加えれば、条件を満たす場合のみの基本統計量を計算できます。

例) 年齢を示す連続変数(age)と、性別を示す変数(gender, 1:女性、2:男性)について、
summarize age if gender==1,detail
とすれば、女性についてのみ、年齢の基本統計量を算出できます。

2. histogram (変数A)

・変数Aについて、ヒストグラムを描きます。
・「hist」と省略することが可能です。

・ヒストグラムの縦軸の単位を何にしたいかによって、オプションを使い分けます。
2-1. histogram (変数A), freq
縦軸がデータの個数になります。

2-2. histogram (変数A), percent
縦軸がパーセントになります。

何もオプションをつけずに「histogram(変数A)」とした場合は、棒の面積の和が1になるように描かれます(histogram (変数A), density と同義)。

3. count if (条件式)

条件式を満たすデータの個数を数えます。

条件式の書き方

3-1. 等号、不等号は、「==」>=」「>」「<=」「<!=
例(変数A)== 5  変数Aが5に等しい
 (変数A)>= 5  変数Aが5以上
 (変数A)> 5    変数Aが5より大きい 
 (変数A)<= 5  変数Aが5以下
 (変数A)< 5    変数Aが5より小さい
 (変数A)!= 5   変数Aが5

3-2. 「かつ」は「&」、「または」は「|」
(変数A)== 5 &(変数B)== 10  変数Aが5、かつ変数Bが10
 (変数A)== 5  |(変数B)== 10  変数Aが5、または変数Bが10

Stataを勉強する教科書ですが、医療系であれば「Stataによる医療系データ分析入門 -統計解析のエレメントからメタ解析まで」が個人的には分かりやすかったです。特に初心者は「付録 Stata解析落穂ひろい」という章にまとめてある、基本的な解析(t検定、カイ二乗検定、相関係数)のやり方が役立つと思います。