/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

記事まとめ

2023/08/23 トランザクション対応の列志向データフォーマット比較

先日読んだ Snowflake の記事に Iceberg 連携の話があったので、自分の学習も兼ねてデータレイクに使われる新しいデータフォーマットについていくつか記事を紹介します: 先日の記事: bynatures.hatenadiary.jp "AWSにおける Hudi/Iceberg/Delta Lake の使…

2023/08/10 読んだ記事まとめ(流行りに乗らないデータ人材)

今日読んだ記事は Snowflake や Databricks の話も交えつつ、その「流行り」に盲目的に乗らない Anti-Hype data person(流行りに乗らないデータ人材、と訳せるでしょうか)が行う、本質的なデータ業務についての紹介記事です。 Snowflake や Databricks な…

2023/06/20 読んだ記事まとめ(データエンジニアリングとソフトウェアエンジニアリングの違い)

最近仕事をしていて、データエンジニアと肩書きはいただいてますがソフトウェア開発をすることも多く、データエンジニア・ソフトウェアエンジニアの2つに違いはどの程度あるのか?ただ役割を細分化しただけなのかが気になっていました。 そんな時に目につい…

2023/04/25 読んだ記事まとめ(dbt + Duckdb による Spark の置き換えについて)

先日 dbt + Duckdb についての Medium の投稿を読んで面白かったので Twitter に投稿したのですが、かなりの反響がありました。dbt と Duckdb というキーワードがキャッチーだからかな、と思ったのですが、改めてここでもブログの内容を少し要約してみます。…

2023/03/28 読んだ記事まとめ(dbtを使う上での5つの指針)

積ん読記事に残っていた dbt の記事が面白かったのでご紹介です。 Pivot 社という会社のアナリティクスエンジニアによる記事で、いくつものプロジェクトで dbt を導入した経験から、dbt を使う上での5つの指針が紹介されています。私は dbt を実際のプロジェ…

2023/03/28 読んだ記事まとめ(Data Mesh, Data Fabric)

Data Mesh の提案者である Zhamak Dehghani 氏の寄稿 を読もうと思っているのですが、先んじて理解を進めるために今日もいくつか Data Mesh に関する Medium のブログを読みました。その中で Netflix 社の Data Mesh に関する記事を読んだのですが、私の理解…

2023/03/20 読んだ記事まとめ(データメッシュにおけるデータプロダクトの定義)

家の近くでも桜が咲き始めました。在宅が多いので季節が過ぎるのがあっという間ですが、先週日曜日は天気がよくて散歩日和でした。 今日はデータメッシュについて1つです。経験がないものの知識として蓄えないとと思い、少しずつ目を通しています。 データメ…

2023/03/20 データ品質改善のためにFour Key Metrics を利用する

Medium でとても目を惹くタイトルの記事を見つけました。"High-Performance Data Teams Don’t Care About Data Quality", 和訳するなら「ハイパフォーマンスなデータチームは、データ品質を気にかけない」というところでしょうか。 データ品質は DMBOK でも…

2023/03/16 読んだ記事まとめ(Streamlit で Snowflake のデータを編集, Looker+Streamlit)

Streamlit のデータ編集機能と、それを利用した Snowflake テーブル編集についての記事の紹介です。最後に Looker と Streamlit を合わせて使っている記事を見つけたので、それも紹介します。 Streamlit data editor Streamlit のプレビュー機能ですが、編集…

2023/03/11 読んだ記事まとめ(Snowflake Streams on Views の正式版公開, Data Vault on Snowflake, Modern Data Stack)

今の業務柄いつも Snowflake の記事が多めですが、実務で使えそうな機能がどんどん登場していたり、データウェアハウスに特化しているのでユーザ目線でどう使ったら良いかという情報も集めやすくて、面白い記事が多いです。今日は新機能1つと Data Vault 2.0…

2023/02/22 読んだ記事まとめ(Snowflake Query Acceleration, dbt+Redshift)

先日 草津に行ったのですが、草津のあたりでは花豆が名産品と知りました。そら豆ぐらいの大きさの、大きい豆です。 料理が好きで豆をたまに煮たりもするので、生の花豆を買おうとしたところ、お店の人に「豆は煮たことがあるのか」と聞かれました。「黒豆な…

2023/03/02 読んだ記事まとめ(Snowpark, Iceberg with EMR)

Building Data Engineering Pipelines with Snowpark for Python medium.com Snowpark で実現するデータパイプライン処理に関するチュートリアルが公開されており、そのチュートリアルに関する概説です。 去年 SnowPro Core の試験を受けた時には全く出題さ…

2023/02/22 読んだ記事まとめ(Snowflake Query Acceleration, dbt+Redshift)

先日 草津に行ったのですが、草津のあたりでは花豆が名産品と知りました。そら豆ぐらいの大きさの、大きい豆です。 料理が好きで豆をたまに煮たりもするので、生の花豆を買おうとしたところ、お店の人に「豆は煮たことがあるのか」と聞かれました。「黒豆な…

2023/02/21 音楽系AIサービス Soundraw / Bigquery のカラムレベルマスキングの追加機能

今日落合陽一さんが話すPIVOT 公式チャンネルの動画を見て、音楽ももうAIサービスで作れるのかと気づき、早速使ってみました。 YouTube に動画をたまに投稿しているのですが、いつも背景音楽に困っていました。Youtube Audio Library という著作権フリーで使…

2023/02/16 読んだ記事まとめ(BIG DATA IS DEAD, DuckDB)

同僚に教えてもらった DuckDB について目につく記事が出ていたので読んでみましたが、DuckDB の根本思想とも言うべき記事でした。 BIG DATA IS DEAD motherduck.com DuckDB は、PC上で分析してしまおうというスケールアップの考え方で開発されている分析用デ…

2023/02/16 HTAP -> Snowflake Unistore

今日も読んだ記事まとめですが、Snowflake Unistore から HTAP の方に手が伸びました。 Unistore -> An evolutionary workload of Snowflake medium.com まだプライベートプレビュー段階のようですが、Snowflake の Unistore についての紹介記事です。OLTPと…

2023/02/15 読んだ記事まとめ(DATA MESH in Snowflake)

この前ラジオで流れて来た 燃え殻 さんという作家の話し口が心地よかったので、本も読んでみました: すべて忘れてしまうから これはエッセイ集なのですが、不思議と自分の昔の忘れていたことを思い出しました。タイトルにもあるように、人間は日々いろんな…

2023/02/10 読んだ記事まとめ(dbt Labs社によるTransform Data社の買収の最終契約)

こちらの記事が昨日 Twitter で流れて来ました: www.getdbt.com Dataform と見間違えて一瞬混乱しました。。(余談:Dataform は dbt と同じく SQL をベースにパイプラインを構築できるサービスで、Google Cloud に買収されました)。上の記事は Transform …

2023/02/08 読んだ記事まとめ(Snowflakeの3つのロール)

ChatGPT に関する話題で慌ただしいですね。Google は社内でコードレッド(緊急事態)を宣言して対応しているという報道もあります。 (1)検索→(2)検索結果からWebサイトを選ぶ→(3)記事を読む→(4)探している情報を見つけるという4ステップが、(1)ChatGPTに聞く…

2023/02/06 読んだ記事まとめ(データマネジメントのロール, 2023年のCDO動向)

データマネジメント関連の動向に関するブログ記事を2つ読みました。2つめの記事は精読した上で ChatGPT に日本語要約させたのですが、手直しは必要なものの一から和訳するよりは遥かに早くて助かります。 Data Governance Organization and Titles www.ewsol…

2023/02/04 読んだ記事まとめ(Kafkaユースケース, 音声合成など)

友人が ChatGPT で論文記事を要約して読んでいると聞き、質問をしたりするだけでなくそういった使い方も出来るのかと驚きました。今日は Confluent 社からの長めの記事を読みたかったので ChatGPT も使いながら読みましたが、非常に便利ですね…。記事本文を…

2022/02/01 読んだ記事まとめ(Lambda with SQS, Cloud Logging in Google Cloud, OpenAssistant)

気分転換にヘッダを変えてみました。Iittala社のキャンドルホルダーが大好きで、(まだ一応)趣味のカメラと組み合わせてキャンドルを撮影したりしているので、その画像を拝借。冬場にはもちろん、友人が家に来たときなんかに使うと、少しムードが出て良い感…