/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

dbt

2023/05/19 読んだ記事まとめ(Shadow Data Teamsによるデータ負債の蓄積)

最近、中学受験の算数の図形問題がYoutube のオススメにどんどん出てくるので、その度に手を止めて考えてます。うまく解けると気持ちいいです。 図形問題は苦手だったのですが少しずつコツを掴み始めていて、補助線をうまく引いて角度や面積を求められると気…

2023/05/09 DuckDB のための AWS Lambda での文字コード変換

前回話した DuckDB の文字コード問題ですが、やはり UTF-8 しか想定されていないようです(DuckDB Foundation の方からリプを貰えました)。DuckDB は S3 や HTTP(S) などの外部データを直接読み込むことができる便利な機能がありますが、処理したいファイル…

2023/05/02 dbt テンプレート・マクロ・テスト導入, 文字コード問題(未解決)

先日書いた記事では、 CSV(UTF8) 形式のファイルを dbt-duckdb プラグインで読み込み、集計した結果を Parquet ファイルとして S3 へ保存する処理を dbt で実装しました: bynatures.hatenadiary.jp この時はひとまず動くことを目標にしていたので、今日は db…

2023/04/28 dbt + duckdb でオープンデータの集計

先日読んだ記事で dbt に DuckDB 用のプラグインがあると知り、dbt と DuckDB の学習も兼ねて試してみることにしました。とても簡単な実験ですが、何かの参考になれば幸いです。 今回実際に試してみて感じたのが、dbt と DuckDB の相性の良さです。手元で動…

2023/04/25 読んだ記事まとめ(dbt + Duckdb による Spark の置き換えについて)

先日 dbt + Duckdb についての Medium の投稿を読んで面白かったので Twitter に投稿したのですが、かなりの反響がありました。dbt と Duckdb というキーワードがキャッチーだからかな、と思ったのですが、改めてここでもブログの内容を少し要約してみます。…

2023/03/28 読んだ記事まとめ(dbtを使う上での5つの指針)

積ん読記事に残っていた dbt の記事が面白かったのでご紹介です。 Pivot 社という会社のアナリティクスエンジニアによる記事で、いくつものプロジェクトで dbt を導入した経験から、dbt を使う上での5つの指針が紹介されています。私は dbt を実際のプロジェ…

2023/02/22 読んだ記事まとめ(Snowflake Query Acceleration, dbt+Redshift)

先日 草津に行ったのですが、草津のあたりでは花豆が名産品と知りました。そら豆ぐらいの大きさの、大きい豆です。 料理が好きで豆をたまに煮たりもするので、生の花豆を買おうとしたところ、お店の人に「豆は煮たことがあるのか」と聞かれました。「黒豆な…

2023/02/22 読んだ記事まとめ(Snowflake Query Acceleration, dbt+Redshift)

先日 草津に行ったのですが、草津のあたりでは花豆が名産品と知りました。そら豆ぐらいの大きさの、大きい豆です。 料理が好きで豆をたまに煮たりもするので、生の花豆を買おうとしたところ、お店の人に「豆は煮たことがあるのか」と聞かれました。「黒豆な…

2023/02/10 読んだ記事まとめ(dbt Labs社によるTransform Data社の買収の最終契約)

こちらの記事が昨日 Twitter で流れて来ました: www.getdbt.com Dataform と見間違えて一瞬混乱しました。。(余談:Dataform は dbt と同じく SQL をベースにパイプラインを構築できるサービスで、Google Cloud に買収されました)。上の記事は Transform …