データの信頼性を考えるとき、「ALCOAに則っていることが大切」といった具合に”ALCOA”という言葉を引用します。これは米国FDAのCSVガイダンスから引用された言葉です。このガイダンスで説明されている”To be acceptable the data should meet certain fundamental elements of quality whether collected or recorded electronically or on paper. Data should be Attributable, Legible, Contemporaneous, Original, and Accurate.”この5つの頭文字をとってALCOA(アルコア)の原則と呼ばれるようになりました。私なりにこの5つを翻訳すると、次のような感じです。
- Attributable:帰属可能であること
- Legible:判読可能であること
- Contemporaneous:同時であること
- Original:オリジナルであること
- Accurate:正確であること
その後、EMAよりReflection paperとして改めてデータの信頼性についての考え方をまとめました。この中で、ALCOAに加え、Complete, Consistent, Enduring, Available when needed の4つの原則が加えられ、その頭文字を加えたALCOA-CCEA(アルコアシーシーイーエー)と呼ばれるようになりました。私なりに加えられた4つを翻訳すると、次のような感じです。
- Complete:完了していること
- Consistent:一貫性があること
- Enduring:永続性があること
- Available when needed:必要時には利用可能であること
内容としてはデータの信頼性においては、いずれも求められる内容だと納得なのですが、ALCOAで5文字、CCEAで4文字、すでに略語とは言い難いなぁと感じていました。
そして更に、最終固定直前と言われているEMAのCSVガイドラインでは、Traceableが加えられALCOA-CCEATとなりました。私なりに加えられたTを翻訳すると、次のような感じです。
- Traceable:追跡可能であること
ALCOA-CCEAT…ついに前半も5文字で後半も5文字だな…なんてことを考えていると、このガイドラインでは「ALCOA++」と呼んでいました(@_@)
ちなみにALCOA-CCEAもALCOA+になっているようです(^_^;)
まぁ略語としてのセンスは別として、データを扱う者として考え方には大賛成です。
そのデータは、
- 誰が、どうやって作ったものか?
- 第三者が容易に判読できるか?
- データは事象と同時期に発生しているか?
- 原資料は明確に定義されているか?
- 正しい記録か?
- 最終バージョンか?
- データのプロセッシングやハンドリングの過程に一貫性はあるか?
- 長期間の保全性はあるか?
- いつでも確認することができるか?
- 全ての変更履歴や素性は明らかにできるか?
これら全ての疑問に対してクリアに回答することができれば、そのデータの信頼性は保証できると思います。
どんなタイプのデータを取り扱う際にも、「このデータの信頼性は保証できるか?すなわちALCOA++の原則にのっとっているか?」ということを常に自問することを習慣にしましょう。