/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

2023-05-01から1ヶ月間の記事一覧

2023/05/20 ChatGPT で CSV から様々なモデルの生成

blog.gopenai.com CSV ファイルから ChatGPT で概念モデルを生成するブログ記事を見つけました。私も試してみて、ついでにデータボルトモデリングにも挑戦しました。 複雑なことをさせようとしたので試行錯誤しましたが面白いですね。プロンプトエンジニアリ…

2023/05/19 読んだ記事まとめ(Shadow Data Teamsによるデータ負債の蓄積)

最近、中学受験の算数の図形問題がYoutube のオススメにどんどん出てくるので、その度に手を止めて考えてます。うまく解けると気持ちいいです。 図形問題は苦手だったのですが少しずつコツを掴み始めていて、補助線をうまく引いて角度や面積を求められると気…

2023/05/09 DuckDB のための AWS Lambda での文字コード変換

前回話した DuckDB の文字コード問題ですが、やはり UTF-8 しか想定されていないようです(DuckDB Foundation の方からリプを貰えました)。DuckDB は S3 や HTTP(S) などの外部データを直接読み込むことができる便利な機能がありますが、処理したいファイル…

2023/05/02 dbt テンプレート・マクロ・テスト導入, 文字コード問題(未解決)

先日書いた記事では、 CSV(UTF8) 形式のファイルを dbt-duckdb プラグインで読み込み、集計した結果を Parquet ファイルとして S3 へ保存する処理を dbt で実装しました: bynatures.hatenadiary.jp この時はひとまず動くことを目標にしていたので、今日は db…