このドキュメントは、QDICの核となるカタログの構成と、カタログで管理対象される主たるコンテンツであるアセットの定義について説明します。データカタログを効率的に運用、活用するためには、カタログにアセットとメタデータがどのような構造で保持されるか、タグやカスタムカテゴリとアセットがどのような関係性にあるかを理解することが不可欠です。これらを理解することで、カタログでのデータ検索がスムーズになり、組織全体で一貫性のあるデータカタログの活用が可能になります。
この説明の対象ユーザー
カタログの構成
以下の図は、カタログの構成を示しています。ユーザーは、ワークスペースからカタログにアクセスして登録された情報を参照(閲覧)します。(カスタムカテゴリはカタログの構成要素ではありませんが、便宜上、カタログ内に表記しています。)
サービス
後述のデータソースの種類をサービスといい、QDICが対応する製品またはサービスを示しています。例えばデータソースがSnowflake社のデータウェアハウスサービスである場合、サービス名はSnowflakeとなり、ワークスペースにログインするとアセット総数と共にホーム画面に表示されます。
運用者がファイルから独自のデータソースを作成する場合があり、この場合のサービス名はOthers(その他)となります。
| サービス名 | 製品またはサービス | データタイプ | 備考 |
| Alteryx | Alteryx | ETL | *1 |
| Athena | Amazon Athena | DB | |
| Azure Synapse | Azure Data Services | DB | |
| BigQuery | Google BigQuery | DB | |
| Databricks | Databricks | DB | |
| Denodo | Denodo Virtual DataPort | DB | |
| Fabric Warehouse | Microsoft Fabric Warehouse | DB | |
| MySQL | MySQL | DB | |
| Oracle | Oracle Database | DB | |
| PostgreSQL | PostgreSQL | DB | |
| Power BI | Microsoft Power BI | BI | |
| Redshift | Amazon Redshift | DB | |
| Snowflake | Snowflake | DB | |
| SQL Server | Microsoft SQL Server | DB | |
| Impala | Apache Impala | DB | *1 |
| Tableau | Tableau Cloud | BI | |
| Teradata | Teradata Vantage | DB | |
| Treasure Data | Treasure Data | DB | |
| Others | 運用者がファイルから独自に作成したもので、特定の製品、サービスに関連していません。アセットの階層構造はデータベース製品に近い設計が多いです。 | ||
*1 Alteryx、およびApache Impalaのメタデータのカタログ化を検討されている場合は、当社の担当営業、またはカスタマーサクセスにお問い合わせください。
アセット
サービスから取得したテクニカルメタデータのうち、スキーマ、テーブル、カラム、ダッシュボード、シートなど、データの論理的な構造を示すメタデータを特にアセットといいます。カタログで管理され利用者に公開する対象物はアセットです。アセットには以下の情報が付随します。
メタデータ
アセットに関する以下の情報を総称してメタデータといいます。
- ユーザー組織のサービスから取得したテクニカルメタデータ。リネージや統計情報を含みます。
- 運用者やQDICが更新するアセットの基本メタデータ(所有者、作成日時、更新日時など)
- 運用者が更新するビジネスメタデータ(論理名、概要、タグなど)
- ユーザーが独自に定義したカスタムプロパティ
プロパティ
アセットの属性情報で、ユーザーがニーズに応じて独自に属性を定義し値を設定するカスタムプロパティをいいます。プロパティもメタデータの一種です。
リネージ
アセット間のデータの流れや変換を追跡する系譜情報を示すメタデータで、カタログからアセットを参照することで確認できます。ビューがどのテーブルから生成されたか、また、テーブルやビューがどのレポートで利用されているかなど、上流と下流の関係性を可視化した情報です。前掲の図ではカタログ内の青色太線がリネージに該当します。
リネージは、ユーザー組織のサービスから取得したテクニカルメタデータです。
統計情報
統計計算によって算出されたデータの特徴や傾向を示すメタデータで、カタログからアセットを参照することで確認できます。統計情報は、データ分析や意思決定の根拠のひとつとして利用されます。また履歴から異常値を検出するなど、データ品質の確認にも利用されます。
リネージは、ユーザー組織のサービスで計算されたものを取得したテクニカルメタデータです。
タグ
アセットを分類し整理するためのラベルです。つまり、タグはアセットに付与されるものです。タグはグループ化され、かつ親子階層を持っています。
タグもアセットのビジネスメタデータです。
カスタムカテゴリ
アセットを付与されたタグを基にグループ化したもので、利用者はワークスペースからはカスタムカテゴリに含まれるアセット群にまとめてアクセスできます。(厳密には、カスタムカテゴリはカタログの構成要素ではありません。)
運用者が管理するテナントとカタログの構成
以下は運用者または管理者により運用管理されているテナントとカタログの構成です。参考までに説明しますが、多くの場合、利用者は意識する必要はありません。
データソース
アセットの供給元は、データソースという単位で管理しています。多くの場合、データソースは製品またはサービスの接続先ホスト別に作成されていますが、利用者はデータソース情報にはアクセスできません。
データソースの作成手段やメタデータをカタログに更新する手段により、データソースは以下の種類に分かれます。データソースの種類は管理者および運用者が決定しています。
agentデータソース
接続先ホストからQDICのプログラム(コネクタ)を経由してアセットやメタデータが直接更新されるデータソースをいいます。
csvデータソース
運用者がファイルを使用して作成するデータソースをいいます。
アセットグループ
アセットをグループ化したもので、運用者が作成しています。アセットグループには、複数のデータソースに属するアセットを含めることができます。多くの場合、利用者が参照可能なアセットは、運用者が作成したアセットグループに属するアセットに限定されます。アセットグループはカタログの設定ではないため、利用者はアセットグループ情報にはアクセスできません。
データ構造とアセットの関係
以下の図は、ユーザー組織の製品およびサービスに存在するデータの論理的な構造を示すメタデータ(スキーマ、テーブル、カラム、ダッシュボード、シートなど)がカタログにアセットとして格納される流れを示しています。
データの論理的構造を示すメタデータの概念と名称はサービスによって様々ですが、カタログ内ではサービスの種類に関わらず同じ概念でカテゴライズしています。例えば、テーブルとテーブルを結合して作成されるデータベース上の論理的な表をデータベースでは一般にビューといいますが、カタログではビューもテーブルとして扱います。
データ構造とアセットの関係の詳細は、以下を参照してください。データソースのデータ構造とアセットの関係