アセットに論理名、概要、タグやプロパティを付与
はじめに
先ほど作成したタグも活用して、登録したアセットにメタデータを付与していきます。メタデータ付与の方法は 手動 ・ CSVインポート ・ ルール の3種類あります。
Quollio Data Catalogでは、データソースから登録されたアセットは スキーマ・テーブル・カラム の3種類に分類されます。Redshiftを例とした場合の対応関係は以下の通りです。
- データベース(Redshift) → スキーマ(Quollio Data Catalog)
- スキーマ(Redshift) → スキーマ(Quollio Data Catalog)
- テーブル(Redshift) → テーブル(Quollio Data Catalog)
- カラム(Redshift) → カラム(Quollio Data Catalog)
チュートリアルで使用しているサンプルデータはSnowflakeがデータソースになっています。画面に表示されたアセットの一覧から1つアセットを選択してください。
手動による付与
各アセットの詳細画面上部にある3点メニューに 編集 ボタンがあります。
編集画面では、アセットに対する 論理名 や 概要 を追加することができます。
論理名 や 概要 と同様に、編集画面で タグ を付与することができます。
タグを検索し、一覧の中から選択します。
論理名とタグは左側のリストにも表示されます。
ユーザーが付与できるメタデータは、以上の論理名・概要・タグ以外にも、プロパティがあります。プロパティについては、詳細機能のプロパティをご参照ください。
CSV形式でインポートしてメタデータを付与
一括で各アセットの 論理名 や 概要 、 プロパティ の各項目を編集したい場合に利用します。本チュートリアルでは、Metadata agentで登録されたアセットについて、メタデータを付与します。CSVでアセットを登録した場合にも同様な操作でメタデータを追加することができます。
CSVファイルのダウンロード
Quollio Data Catalogにログイン後、画面右上のユーザーアイコン、 設定 を順にクリックし、設定画面に移動します。
画面左側メニューの アセット管理 を選択し、 データ一括入力 をクリックすると、図のような画面が表示されます。アセットをCSV形式で作成・編集する が今回の対象です。
操作、対象、ソースについてそれぞれ、編集、スキーマ,テーブル,カラム、Metadata agentを選択し、テンプレートをダウンロードをクリックします。
続いて、ダウンロードしたzipファイルを展開すると、column_x_y.csv、table_x_y.csv、schema_x_y.csv の3種類のCSVが存在します。CSVファイルは5000件ごとに分かれており、xとyはそれぞれ開始アセットと終了アセットの数を示しています。
ダウンロードしたCSVをMicrosoft ExcelやGoogle スプレッドシートなどで開きます。
各列の詳細については、こちらの説明をご参照ください。
CSVファイルの編集
メタデータの入力元となるファイルが手元にある場合、service_name列とpath列をキーにVLOOKUP関数などを利用して、論理名や概要を埋めていきます。図では、論理名(logical_name)と概要(description)を編集しています。
- 複数ファイルに分かれている場合、google スプレッドシートであれば、すべてのファイルをインポートした後、配列を示す中括弧(={)を利用したり、QUERY関数を利用することで1つのシートにまとめることができます。
- 編集するアセットのみを抽出すると作業がしやすくなります。(インポート時も編集対象のアセットのみで問題ありません。)
編集が完了したら、CSV形式でダウンロードします。ファイルのエンコードは UTF-8 としてください。
CSVファイルのインポート
CSVアップロードをクリックします。
前の手順でダウンロードしたファイルを選択します。アップロードが完了しましたのトーストが表示されます。
アセット管理画面にて、アップロード履歴をクリックします。
ステータスが successful となっていれば、インポートは完了です。カタログ画面で、アップロードされた情報を確認してください。
- 一度に登録できる量は5000件までです。
- ステータスが失敗となった場合、カーソルをステータスに合わせるとエラーの内容を確認することができます。
ルールによる自動付与
これまでアドホックにメタデータを付与する方法をご紹介してきましたが、全てのメタデータを手動で運用・管理していくのは現実的ではありません。Quollio Data Catalogではルールベースのタグ付与機能を備えており、日々変化するデータソースに対して自動的にタグを付与することが可能です。
次節でご紹介していきます。