データの品質を考えるとき、最初に注目するべきは「欠損値」です。
もしかしたら、存在するデータ以上の意味を持っているいくつかの可能性が考えられます。例として、「この食品を食べた後、下痢をしましたか?」という質問に対する回答が欠損した場合を考えてみましょう。(ちょっとオーバーな例えですが)
可能性1:
激しく下痢をしたため、入院してしまい回答できなかった。
可能性2:
実際には下痢をしたが、恥ずかしいので答えなかった。
可能性3:
下痢をしたため「こんな食品を勧めた人は信用できない!話もしたくない!」という怒りで回答しなかった。
可能性4:
まったく下痢をしなかったが、面倒なので回答しなかった。
ほかにも可能性は考えられると思います。このような可能性がある中で、「この食品を食べた後、下痢を報告した人は2%でした。」という集計結果は、どのように受けとめればよいでしょうか?
もちろん、集計結果が期待値とほぼ同様である可能性もありますが、過小評価または過大評価になっているおそれもあることになります。このように、欠損値には実際に収集されたデータ以上の意味を持つ場合があることに注意が必要です。
データを評価する第一歩として、標本数(n数, 分母)、欠損値の有無、そして収集されたデータ数(分子)を常に意識しましょう。