/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

DuckDB

2023/09/03 MotherDuck の紹介と計算リソースについて

このブログで何度か DuckDB についてご紹介したのですが、DuckDB のクラウド版 MotherDuck のベータ版が2023年6月よりリクエストベースで利用可能になっています。 もくじ: クラウド版 DuckDB, MotherDuck の利点 クラウドとローカル環境のハイブリッド Moth…

2023/08/10 読んだ記事まとめ(流行りに乗らないデータ人材)

今日読んだ記事は Snowflake や Databricks の話も交えつつ、その「流行り」に盲目的に乗らない Anti-Hype data person(流行りに乗らないデータ人材、と訳せるでしょうか)が行う、本質的なデータ業務についての紹介記事です。 Snowflake や Databricks な…

2023/05/09 DuckDB のための AWS Lambda での文字コード変換

前回話した DuckDB の文字コード問題ですが、やはり UTF-8 しか想定されていないようです(DuckDB Foundation の方からリプを貰えました)。DuckDB は S3 や HTTP(S) などの外部データを直接読み込むことができる便利な機能がありますが、処理したいファイル…

2023/05/02 dbt テンプレート・マクロ・テスト導入, 文字コード問題(未解決)

先日書いた記事では、 CSV(UTF8) 形式のファイルを dbt-duckdb プラグインで読み込み、集計した結果を Parquet ファイルとして S3 へ保存する処理を dbt で実装しました: bynatures.hatenadiary.jp この時はひとまず動くことを目標にしていたので、今日は db…

2023/04/28 dbt + duckdb でオープンデータの集計

先日読んだ記事で dbt に DuckDB 用のプラグインがあると知り、dbt と DuckDB の学習も兼ねて試してみることにしました。とても簡単な実験ですが、何かの参考になれば幸いです。 今回実際に試してみて感じたのが、dbt と DuckDB の相性の良さです。手元で動…

2023/04/25 読んだ記事まとめ(dbt + Duckdb による Spark の置き換えについて)

先日 dbt + Duckdb についての Medium の投稿を読んで面白かったので Twitter に投稿したのですが、かなりの反響がありました。dbt と Duckdb というキーワードがキャッチーだからかな、と思ったのですが、改めてここでもブログの内容を少し要約してみます。…

2023/02/16 読んだ記事まとめ(BIG DATA IS DEAD, DuckDB)

同僚に教えてもらった DuckDB について目につく記事が出ていたので読んでみましたが、DuckDB の根本思想とも言うべき記事でした。 BIG DATA IS DEAD motherduck.com DuckDB は、PC上で分析してしまおうというスケールアップの考え方で開発されている分析用デ…