データクリーニングからEDRへ

「データクリーニング」の自分史

筆者は長年データマネジメントに携わってきましたが、振り返るとデータクリーニングに対する考え方、というかスタンスが変わってきていることに気付きました。
自分という人間が、いろいろな経験をする中で考え方が移ろぐということも当然あります。さらに世間の価値観が変遷する、使用するツールやテクノロジーが進化するなど複数の要因が混ざっていると思います。
大まかには次のように変化してきています。

  • 間違い探し
  • 間違い防止
  • 間違ったって良いじゃなか、本質が正しければ

特に強い影響を受けたのは、John TukeyのEDA(Exploratory Data Analysis)という考え方です。この考え方は、探索的にデータレビューするときにも非常に役立つ!と思い(勝手に)、EDR(Exploratory Data Review)と名付けて実施しています。まずはEDAについての説明から。

John TukeyとEDA

John Tukeyは、1970年代にEDAを提唱したアメリカの統計学者です。彼は、データ分析における新たなパラダイムとして探索的データ分析(EDA)を位置づけ、データから仮説を導き出すことの重要性を強調しました。EDAは、データセットを包括的に探索し、それに隠されたパターン、関連性、トレンドを明らかにするアプローチです。EDAの目的は、データセットを詳細に調査し、それに基づいて新たな仮説を立てたり、未知の洞察を得たりすることにあります。これは、従来の統計学が仮説を設定してからデータを分析するというアプローチとは対照的でした。

EDAの特徴

データの視覚化

EDAでは、データの視覚化が中心的な役割を果たします。幹葉図、散布図、ヒストグラム、箱ひげ図などの視覚的手法を利用して、データセットの特性やパターンを分かりやすく表現します。これらのグラフィカルな表現により、データに隠された洞察が明らかになることが多いです。

柔軟なアプローチ

EDAは、一定の手順に固執するよりも、データに対する柔軟な探索を重視します。データを様々な方法で分析し、多角的に見ることで、予期せぬ発見や洞察を得ることができます。EDAでは、データ自体が研究者に何を語っているのかを理解することが重要です。

仮説生成の促進

EDAは、データを基に新たな仮説や質問を生み出すことを促進します。このアプローチは、データの探索と理解を深めることにより、新しい視点やアイデアを生み出すことを可能にします。

EDAの重要性

EDAは、データ自体から直接洞察を引き出し、データドリブン型の発見を促進します。このアプローチにより、研究者はデータセットの本質的な特徴や隠れたパターンをより深く理解することができます。また、データに潜む洞察を引き出すことで、より効果的な意思決定や戦略策定に寄与します。このことから、データサイエンスとビッグデータの分野においても、EDAは重要な役割を果たしています。

データクリーニングへの応用

このように、EDAは、データを深く理解し、新しい洞察を得るための強力な手段です。データセットに対する探索的なアプローチを通じて、研究者はデータの隠れた価値を発見し、新たな知見を得ることができます。ちなみに、統計学者のFrank Anscombeは、このEDAに共感し「Anscombe’s quartet」という有名な例題を提唱しています。
筆者も、データをレビュー(チェック&クリーニング)する際には、EDAの考え方を取り入れて実施するようにしており、それを勝手にEDRと読んでいるのです。

PAGE TOP