/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

2022/09/24 Data Vault 2.0 輪読会に参加しました

今年の春〜初夏にかけて Data Vault 2.0 についての輪読会に参加しました。途中は退職・転職などでバタバタしていて参加できなかったのですが、Data Vault の概念を理解でき、dbt などの ETL ツールについての話題も多く、とても勉強になりました。色々と感想を書こうとしていたのですが新しい会社で学ぶことが多く、業務後や週末はのんびりしていることが多かったので、雨続きの三連休ですが久しぶりに個人的な勉強をまた始めています。

Data Vault ですが、ディメンショナルモデリングを置き換えるものではないと明言されています。むしろディメンショナルモデリングでデータマートを組みやすいように、前段のデータウェアハウスを管理しておくための技術やモデリング手法のようです。

輪読したのはこちらの本です:

Amazon | Building a Scalable Data Warehouse with Data Vault 2.0 | Linstedt, Daniel, Olschimke, Michael | Library Management

Link, Hub, Satellite など独自概念が多く登場するため、スタースキーマのように一目で分かるものではないのですが、業務システムから連携されたデータを大きく変えずにデータの意味付けだけをしてデータウェアハウスに格納するような印象で、実際に組めればデータウェアハウス以降のデータ処理が行いやすくなりそうです。実際に業務や案件で利用したことがないので、今後ぜひ実務経験を積みたいなと思っています。

Data Vault の概念理解に役立ったのが Kent Graziano 氏の記事でした:

Articles by Kent Graziano | Vertabelo Database Modeler

Graziano 氏は2021年まで Snowflake 社の Chief Technical Evangelist だった方で、氏の Data Vault に関する記事が大変分かりやすく、特にディメンショナルモデリングとの違いを理解する上でとても参考になりました。Dava Vault では Business Vault と呼ばれるレイヤがあり、その理解に少し苦しんだのですが、以下の記事で理解することができました:

vertabelo.com

datatech-jp というコミュニティでは、データエンジニアリングに関するさまざまなトピックがあり、輪読会や勉強会、各種ツールに関する議論などもされています。ご興味あればぜひご覧ください:

datatech-jp コミュニティについて | datatech-jp

余談

今年6月からは とある外資系コンサル企業…テックコンサルというんでしょうか、Slalom(スラロム) にお世話になっており、英語を使う機会も増えました。まだまだ実務で流暢に使いこなせるレベルにはほど遠いのですが、日本支部はまだ立ち上がったばかりでいろんな業界の方が転職してこられています。米国では割と有名なコンサルファームらしいのですが日本はまだ100人に満たない規模で、ベンチャー企業のような雰囲気もありつつ大企業のような制度もあり、戸惑ったり楽しんだりといった日々です。

だんだんと涼しくなってきて、季節の変わり目に見事に体調を崩しましたが、みなさまもどうぞ体調には気をつけてお過ごしください。