/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

2023-01-01から1年間の記事一覧

2023/10/18 令和5年 データベーススペシャリスト受験 振り返り

10月頭に IPA のデータベーススペシャリストの試験を受けました。午後2で大きくつまづいたので振り返りをします。 午前2, 午後1は多分大丈夫 午前1は免除、午前2はマークシートですが23/25点でした。合格点は15/25点なので無事通過しているはずです。 午後1…

2023/09/23 IPA データベーススペシャリスト試験勉強中

秋のデータベーススペシャリストの試験日が近づいてきたので最近は試験対策をしています。 新卒の頃から取りたかった IPA のネットワークスペシャリスト(NW)とデータベーススペシャリスト(DB)、この2つの高度試験に合格することが今年の目標です。実に10年越…

2023/09/03 MotherDuck の紹介と計算リソースについて

このブログで何度か DuckDB についてご紹介したのですが、DuckDB のクラウド版 MotherDuck のベータ版が2023年6月よりリクエストベースで利用可能になっています。 もくじ: クラウド版 DuckDB, MotherDuck の利点 クラウドとローカル環境のハイブリッド Moth…

2023/09/01 Streamlit 入力ウィジェットでの変数の扱い方

簡単に Web アプリケーションが作れて人気の Streamlit ですが、入力ウィジェットも豊富に揃っていて便利です。 一方であまり学ばずともそれっぽいモノが作れてしまうため、変数周りの扱いでつまづくことが多いのではないでしょうか(私のことです。。)。備…

2023/08/23 トランザクション対応の列志向データフォーマット比較(Iceberg,Hudi,DeltaLake)

先日読んだ Snowflake の記事に Iceberg 連携の話があったので、自分の学習も兼ねてデータレイクに使われる新しいデータフォーマットについていくつか記事を紹介します: 先日の記事: bynatures.hatenadiary.jp "AWSにおける Hudi/Iceberg/Delta Lake の使…

2023/08/23 トランザクション対応の列志向データフォーマット比較

先日読んだ Snowflake の記事に Iceberg 連携の話があったので、自分の学習も兼ねてデータレイクに使われる新しいデータフォーマットについていくつか記事を紹介します: 先日の記事: bynatures.hatenadiary.jp "AWSにおける Hudi/Iceberg/Delta Lake の使…

2023/08/18 読んだ記事まとめ(Snowflake コスト削減/最適化/Iceberg連携)

お盆休みをしっかりいただけたので、徐々に通常運転に戻すべく今日は Snowflake 絡みの記事を3つ取り上げてみます。 Best practices to optimize Snowflake spend medium.com Snowflake のコストが高いと最近耳にしますが、便利で高性能なサービスがゆえに利…

2023/08/10 読んだ記事まとめ(流行りに乗らないデータ人材)

今日読んだ記事は Snowflake や Databricks の話も交えつつ、その「流行り」に盲目的に乗らない Anti-Hype data person(流行りに乗らないデータ人材、と訳せるでしょうか)が行う、本質的なデータ業務についての紹介記事です。 Snowflake や Databricks な…

2023/07/20 Data Qualify Fundamentals 輪読会に参加しました

data-tech-jp にて Tsuchikawa さん (@tvtg_24) が実施されていた Data Quality Fundamentals の輪読会に参加していて、先日最終回を迎えました。2回ほど出席できなかったので半分ほどしか聞けていないのですが、理解している範囲で備忘録として感想を残しま…

2023/07/05 Apache Flowman(YAMLでETL処理が書けるOSSプロダクト)の紹介

Medium で見つけた記事をいくつか紹介しようと思ったのですが、Flowman の記事が長くなったので Docker でのデモも交えながらご紹介します。 Flowman — A Declarative ETL Framework powered by Apache Spark kupferk.medium.com Flowman という Apache ライ…

2023/06/30 令和5年春期ネットワークスペシャリスト受験記

6月29日正午に令和5年春期のIPA高度試験の結果が発表されました。 私はネットワークスペシャリストを受けました。肌感としては午後Ⅰが厳しいかな…よくて60点ギリギリと思ったのですが、無事合格していました。去年11月に受験を決意してお正月明けから勉強開…

2023/06/20 読んだ記事まとめ(データエンジニアリングとソフトウェアエンジニアリングの違い)

最近仕事をしていて、データエンジニアと肩書きはいただいてますがソフトウェア開発をすることも多く、データエンジニア・ソフトウェアエンジニアの2つに違いはどの程度あるのか?ただ役割を細分化しただけなのかが気になっていました。 そんな時に目につい…

2023/06/15 Webアプリ開発中: Create React App への環境変数の渡し方

1ヶ月近くブログ更新できていなかったのですが、ここしばらくは一からWebアプリを作ってみようと思い立って業務が終わってからずっと開発をしていました。ようやく最低限の機能開発と、ローカルとAWSでの差異を加味した環境構築が終わったのでブログにまとめ…

2023/05/20 ChatGPT で CSV から様々なモデルの生成

blog.gopenai.com CSV ファイルから ChatGPT で概念モデルを生成するブログ記事を見つけました。私も試してみて、ついでにデータボルトモデリングにも挑戦しました。 複雑なことをさせようとしたので試行錯誤しましたが面白いですね。プロンプトエンジニアリ…

2023/05/19 読んだ記事まとめ(Shadow Data Teamsによるデータ負債の蓄積)

最近、中学受験の算数の図形問題がYoutube のオススメにどんどん出てくるので、その度に手を止めて考えてます。うまく解けると気持ちいいです。 図形問題は苦手だったのですが少しずつコツを掴み始めていて、補助線をうまく引いて角度や面積を求められると気…

2023/05/09 DuckDB のための AWS Lambda での文字コード変換

前回話した DuckDB の文字コード問題ですが、やはり UTF-8 しか想定されていないようです(DuckDB Foundation の方からリプを貰えました)。DuckDB は S3 や HTTP(S) などの外部データを直接読み込むことができる便利な機能がありますが、処理したいファイル…

2023/05/02 dbt テンプレート・マクロ・テスト導入, 文字コード問題(未解決)

先日書いた記事では、 CSV(UTF8) 形式のファイルを dbt-duckdb プラグインで読み込み、集計した結果を Parquet ファイルとして S3 へ保存する処理を dbt で実装しました: bynatures.hatenadiary.jp この時はひとまず動くことを目標にしていたので、今日は db…

2023/04/28 dbt + duckdb でオープンデータの集計

先日読んだ記事で dbt に DuckDB 用のプラグインがあると知り、dbt と DuckDB の学習も兼ねて試してみることにしました。とても簡単な実験ですが、何かの参考になれば幸いです。 今回実際に試してみて感じたのが、dbt と DuckDB の相性の良さです。手元で動…

2023/04/25 読んだ記事まとめ(dbt + Duckdb による Spark の置き換えについて)

先日 dbt + Duckdb についての Medium の投稿を読んで面白かったので Twitter に投稿したのですが、かなりの反響がありました。dbt と Duckdb というキーワードがキャッチーだからかな、と思ったのですが、改めてここでもブログの内容を少し要約してみます。…

2023/04/16 IPA NW を受けてきました

今年頭から勉強してきた IPA ネットワークスペシャリストの試験がようやく今日終わりました。 午前Ⅰ、Ⅱは80点以上でパスできましたが、今年は午後Ⅰが非常に難しくて、基準の60点を超えていないかもしれません。。数日前から Wi-Fi 技術についての対策をして…

2023/04/12 IPA NW 今週末

今年に入ってからずっと IPA ネットワークスペシャリストの試験対策をしています。ついに今週末試験です。 1日に4つの試験があり、すべてのテストで60点以上という合格率が低い難しい試験で、年に一度しか行われません。特に午後の2つの試験は20字〜60字での…

2023/03/28 読んだ記事まとめ(dbtを使う上での5つの指針)

積ん読記事に残っていた dbt の記事が面白かったのでご紹介です。 Pivot 社という会社のアナリティクスエンジニアによる記事で、いくつものプロジェクトで dbt を導入した経験から、dbt を使う上での5つの指針が紹介されています。私は dbt を実際のプロジェ…

2023/03/28 読んだ記事まとめ(Data Mesh, Data Fabric)

Data Mesh の提案者である Zhamak Dehghani 氏の寄稿 を読もうと思っているのですが、先んじて理解を進めるために今日もいくつか Data Mesh に関する Medium のブログを読みました。その中で Netflix 社の Data Mesh に関する記事を読んだのですが、私の理解…

2023/03/27 ChatGPTで正規表現を作ってもらう

昨日、ふと10年前のエントリーの修正をしました。正規表現が間違っていたのと、オートマトンへの画像が無くなっていたので追加しました。というのも、ChatGPT に要件を伝えたら正しい正規表現が作れるのではないかと思ったためです。 結果を言うと上手くいか…

2023/03/20 読んだ記事まとめ(データメッシュにおけるデータプロダクトの定義)

家の近くでも桜が咲き始めました。在宅が多いので季節が過ぎるのがあっという間ですが、先週日曜日は天気がよくて散歩日和でした。 今日はデータメッシュについて1つです。経験がないものの知識として蓄えないとと思い、少しずつ目を通しています。 データメ…

2023/03/20 データ品質改善のためにFour Key Metrics を利用する

Medium でとても目を惹くタイトルの記事を見つけました。"High-Performance Data Teams Don’t Care About Data Quality", 和訳するなら「ハイパフォーマンスなデータチームは、データ品質を気にかけない」というところでしょうか。 データ品質は DMBOK でも…

2023/03/16 読んだ記事まとめ(Streamlit で Snowflake のデータを編集, Looker+Streamlit)

Streamlit のデータ編集機能と、それを利用した Snowflake テーブル編集についての記事の紹介です。最後に Looker と Streamlit を合わせて使っている記事を見つけたので、それも紹介します。 Streamlit data editor Streamlit のプレビュー機能ですが、編集…

2023/03/11 読んだ記事まとめ(Snowflake Streams on Views の正式版公開, Data Vault on Snowflake, Modern Data Stack)

今の業務柄いつも Snowflake の記事が多めですが、実務で使えそうな機能がどんどん登場していたり、データウェアハウスに特化しているのでユーザ目線でどう使ったら良いかという情報も集めやすくて、面白い記事が多いです。今日は新機能1つと Data Vault 2.0…

2023/02/22 読んだ記事まとめ(Snowflake Query Acceleration, dbt+Redshift)

先日 草津に行ったのですが、草津のあたりでは花豆が名産品と知りました。そら豆ぐらいの大きさの、大きい豆です。 料理が好きで豆をたまに煮たりもするので、生の花豆を買おうとしたところ、お店の人に「豆は煮たことがあるのか」と聞かれました。「黒豆な…

2023/03/02 読んだ記事まとめ(Snowpark, Iceberg with EMR)

Building Data Engineering Pipelines with Snowpark for Python medium.com Snowpark で実現するデータパイプライン処理に関するチュートリアルが公開されており、そのチュートリアルに関する概説です。 去年 SnowPro Core の試験を受けた時には全く出題さ…