このドキュメントでは、アセットの詳細メタデータとして表示される各種統計情報と計算の仕組みについて説明します。計算ロジックは、対象となるデータソースサービスによって異なります。
この説明の対象ユーザー
統計情報とは
DBデータのアセットの詳細メタデータのひとつで、テーブルやビューにどのようなデータが、どれくらいの量、どのような分布で格納されているかを算出した値です。QDICでは、データソースからユーザー組織のデータソースから統計値を取得し、カタログに反映しています。
- 対象のアセットは、テーブルおよびビューです。
- 統計値は、カラム毎に計算されます。
- 設定により統計情報が表示されるデータソースおよびアセットが限定される場合があります。詳細は管理者に確認してください。
取得する統計値
統計値は、カラムのデータ型が数値型の場合のみ計算されます。ただし、いくつかの統計値は、カラムが文字列型・日付型であっても計算されます。その他のデータ型のカラムに対しては統計値を計算しません。
カラムのデータ型が数値型の場合のみ計算される統計値
- 最大値
- 最小値
- 平均値
- 中央値
- 最頻値
- 標準偏差
カラムのデータ型が数値型・文字列型・日付型でも計算される統計値
- ユニーク数
- NULL数
統計値計算の仕組み
統計値計算の仕組みは、対象データ数によって異なります。データソースによっては、データソース・エンジンの運用コストの負担を軽減するために、管理者によって計算対象となるデータ数や算出する統計値を制限している場合があります。
Amazon Redshift
データソースの全データを対象として統計値を計算しています。データソースの運用コストを軽減するために、算出する統計値を制限している場合があります。
Databricks
データソースの仕組み(レイクハウスモニタリング)を利用して統計値を取得しています。
Google BigQuery
データソースの仕組み(Dataplex)を利用して統計値を取得しています。
Snowflake
サンプリングしたデータを対象として統計値を計算しています。サンプリングのため、統計値は確かさはサンプリング数に依存します。つまり、データ全件を対象としない場合は、カタログに表示される値はあくまで参考値であることに留意してください。サンプリング数は、コネクタの実行時間とSnowflakeの負荷による運用コストを検討の上、管理者と環境運用者が決定しています。
サンプル数と統計値の関係について
管理者は以下を目安にサンプリング数を決定していることが多いです。
- 二項分布を想定し、許容誤差5%、信頼水準95%、母比率0.5とし、サンプリング数を1500件程度とする。
- 二項分布を想定し、許容誤差10%、信頼水準95%、母比率0.5とし、サンプリング数を400程度とする。
※一般的なアンケート調査では、サンプル数として400程度を目安とする場合が多いですが、許容誤差を狭める場合はサンプル数は1500程度が目安となります。