オフィスが4月から移転するので、今週はバタバタしそうです。移転先では多くの部署が集約されるのですが、そのせいで人が多く、エレベータが長蛇の列・・・という噂もちらほら。駅からも遠いし少し憂鬱ですが、ランチする場所は増えそうなのでお昼は楽しみです。
Apache Avro
システム間でデータをやりとりするためのシリアライズの仕組みです。あまり深く調べてこなかったので、いくつかブログや発表資料などを読みました。
Avro Sink / Avro Source を利用すると、Avro プロトコルでシステム間のデータ転送が実現できます。
www.slideshare.net
Protocol Buffers との違い
Protocol Buffers も同様の文脈で登場するなと思って調べると、比較資料がありました。とても分かりやすかったです。
www.slideshare.net
パフォーマンスはともかくとして、スキーマ情報の管理の仕方が異なるようです。Protocol Buffers だとモデルクラスを追加しないといけないため、様々なスキーマが現れた場合にどういう運用になるんでしょうか。。Schema Registry でスキーマ管理できる Avro の方が、データの大規模なワークフローを構築する場合は分かりやすい気がします。ただ速度面では Protocol Buffers に軍配が上がります。また、アプリケーション間での通信はスキーマファイルをやりとりしなくてよい Protocol Buffers の方がよさそうです。
データマネジメントについて
「データマネジメント 業務改善の正攻法 戦略から実践」という書籍を同僚に教えてもらったので読み進めています。堅い本のように見えますが序章からかなり面白くて、技術の革新と共にデータは分散され、統一して管理することが難しくなったということです。技術の発展によって利便性が高まると、データの管理面ではネガティブに働くというのは直感に反している気がしますが理解できます。だからこそ「データモデル」を作成して業務をモデリングし、データに基づいた事業戦略などを進めていかなければいけないんですね。
データ総研が2015年に出版しているのですが、値段も良心的で内容もたっぷりです。。輪読向きのような気がしますが、ひとまず一人で読み進めてみます。