Data Mesh の提案者である Zhamak Dehghani 氏の寄稿 を読もうと思っているのですが、先んじて理解を進めるために今日もいくつか Data Mesh に関する Medium のブログを読みました。その中で Netflix 社の Data Mesh に関する記事を読んだのですが、私の理解している Data Mesh とだいぶ異なっていました:
Previously, we defined Data Mesh as a fully managed, streaming data pipeline product used for enabling Change Data Capture (CDC) use cases. ... As a result, today we define Data Mesh as a general purpose data movement and processing platform for moving data between Netflix systems at scale.
ドメインごとにデータプロダクトを管理することや、セルフサービスインフラを提供して各ドメインごとの活動を支援する…という理解だったのですが、上の記事では CDC やデータ転送の効率化の話がされています。他の記事も読みましたが、Netflix 社における Data Mesh はストリームデータの転送基盤に利用されているようです。
Data Mesh と Data Fabric の比較
今日紹介する2本はどちらも、デロイトの方が書かれた Data Mesh に関する記事です。今までのプロジェクトの経験から、Data Mesh と Data Fabric の利点欠点をまとめ、双方の良いところを取り入れるポイントが紹介されています。
- Data Mesh からドメイン指向の分散型データオーナーシップとアーキテクチャ、およびセルフサービスデータインフラストラクチャをプラットフォームの原則としてそのまま適用
- データプロダクトの概念を再定義: データ生成側と利用者間のデータ合意(データフォーマットやデータ品質など)と、その合意を通じて提供されるデータの組み合わせとして定義
- Data Mesh アーキテクチャ上にエンタープライズナレッジグラフを持つ Data Fabric を有効にする。ナレッジグラフには、データとメタデータの両方を含める
- エンタープライズメタデータナレッジグラフを活用して、連携データガバナンスを定義および実装する。データガバナンスのアンカーとして、データ合意の概念を活用する
記事を読んだだけでは分かったような分からないようなですが、3点目4点目は Data Mesh に欠けていた企業全体でナレッジグラフやガバナンス活動を行う観点を加えているようです。また2点目については、同じ筆者ですが別記事にて、データプロダクトの再定義について紹介がありました:
Data Product の再定義
"product" という言葉の意味を深掘りしていて、そこには製品自体だけでなく、製品がもつ特性について生産者と消費者の間の合意があると考えています。この考え方をデータにも適用して、データプロダクトにはデータ自体と、そこにデータ生成側と利用者の合意(フォーマットや品質など)を含めようという提案です。