やっぱりキャラが好き

データのタイプとして大きく2つあります。すなわち文字型(character)と数値型(numeric)で、システムによって多少定義が違ったり、数値型をintegerとfloatで明確に分けるものもあります。

タイトルの「キャラ」」とは、この文字型(character)のことです。データベースを構築する際、カテゴリ変数のコードは文字型にすることが好ましいと考えています。たとえば、性別のデータにおいて「F=女性」「M=男性」といった感じです。これを「1=女性」「2=男性」と数値型のコードで持たせてしまうと、別の研究では「0=女性」「1=男性」としていた場合、データを結合する際にトラブルの元になります。同様に、「0=なし」「1=あり」なども「N=なし」「Y=あり」のほうがトラブルやストレスが減ると考えています。

重回帰分析やロジスティック回帰分析などの多変量解析ではカテゴリカル・データは使えないから、、、という意見もありますが、基本的にはどの環境でもダミー変数に変換することは簡単だと思いますし、「なし」と「あり」を逆に結合してしまうというリスクの方がはるかに重大だと思うのです。

もちろん、カテゴリ変数の中でも、単なる名義尺度ではなく、グレードやクラスのような順序尺度としての意味があるものはそのまま数値を使用するほうが良いと思います。このように、そのデータの使用目的によって選択は分かれるとは思いますが、「どちらでも良い」というケースであれば、筆者はやっぱり「キャラ」が好きなのです。

PAGE TOP