2023-01-01から1年間の記事一覧
10月頭に IPA のデータベーススペシャリストの試験を受けました。午後2で大きくつまづいたので振り返りをします。 午前2, 午後1は多分大丈夫 午前1は免除、午前2はマークシートですが23/25点でした。合格点は15/25点なので無事通過しているはずです。 午後1…
秋のデータベーススペシャリストの試験日が近づいてきたので最近は試験対策をしています。 新卒の頃から取りたかった IPA のネットワークスペシャリスト(NW)とデータベーススペシャリスト(DB)、この2つの高度試験に合格することが今年の目標です。実に10年越…
このブログで何度か DuckDB についてご紹介したのですが、DuckDB のクラウド版 MotherDuck のベータ版が2023年6月よりリクエストベースで利用可能になっています。 もくじ: クラウド版 DuckDB, MotherDuck の利点 クラウドとローカル環境のハイブリッド Moth…
簡単に Web アプリケーションが作れて人気の Streamlit ですが、入力ウィジェットも豊富に揃っていて便利です。 一方であまり学ばずともそれっぽいモノが作れてしまうため、変数周りの扱いでつまづくことが多いのではないでしょうか(私のことです。。)。備…
先日読んだ Snowflake の記事に Iceberg 連携の話があったので、自分の学習も兼ねてデータレイクに使われる新しいデータフォーマットについていくつか記事を紹介します: 先日の記事: bynatures.hatenadiary.jp "AWSにおける Hudi/Iceberg/Delta Lake の使…
先日読んだ Snowflake の記事に Iceberg 連携の話があったので、自分の学習も兼ねてデータレイクに使われる新しいデータフォーマットについていくつか記事を紹介します: 先日の記事: bynatures.hatenadiary.jp "AWSにおける Hudi/Iceberg/Delta Lake の使…
お盆休みをしっかりいただけたので、徐々に通常運転に戻すべく今日は Snowflake 絡みの記事を3つ取り上げてみます。 Best practices to optimize Snowflake spend medium.com Snowflake のコストが高いと最近耳にしますが、便利で高性能なサービスがゆえに利…
今日読んだ記事は Snowflake や Databricks の話も交えつつ、その「流行り」に盲目的に乗らない Anti-Hype data person(流行りに乗らないデータ人材、と訳せるでしょうか)が行う、本質的なデータ業務についての紹介記事です。 Snowflake や Databricks な…
data-tech-jp にて Tsuchikawa さん (@tvtg_24) が実施されていた Data Quality Fundamentals の輪読会に参加していて、先日最終回を迎えました。2回ほど出席できなかったので半分ほどしか聞けていないのですが、理解している範囲で備忘録として感想を残しま…
Medium で見つけた記事をいくつか紹介しようと思ったのですが、Flowman の記事が長くなったので Docker でのデモも交えながらご紹介します。 Flowman — A Declarative ETL Framework powered by Apache Spark kupferk.medium.com Flowman という Apache ライ…
6月29日正午に令和5年春期のIPA高度試験の結果が発表されました。 私はネットワークスペシャリストを受けました。肌感としては午後Ⅰが厳しいかな…よくて60点ギリギリと思ったのですが、無事合格していました。去年11月に受験を決意してお正月明けから勉強開…
最近仕事をしていて、データエンジニアと肩書きはいただいてますがソフトウェア開発をすることも多く、データエンジニア・ソフトウェアエンジニアの2つに違いはどの程度あるのか?ただ役割を細分化しただけなのかが気になっていました。 そんな時に目につい…
1ヶ月近くブログ更新できていなかったのですが、ここしばらくは一からWebアプリを作ってみようと思い立って業務が終わってからずっと開発をしていました。ようやく最低限の機能開発と、ローカルとAWSでの差異を加味した環境構築が終わったのでブログにまとめ…
blog.gopenai.com CSV ファイルから ChatGPT で概念モデルを生成するブログ記事を見つけました。私も試してみて、ついでにデータボルトモデリングにも挑戦しました。 複雑なことをさせようとしたので試行錯誤しましたが面白いですね。プロンプトエンジニアリ…
最近、中学受験の算数の図形問題がYoutube のオススメにどんどん出てくるので、その度に手を止めて考えてます。うまく解けると気持ちいいです。 図形問題は苦手だったのですが少しずつコツを掴み始めていて、補助線をうまく引いて角度や面積を求められると気…
前回話した DuckDB の文字コード問題ですが、やはり UTF-8 しか想定されていないようです(DuckDB Foundation の方からリプを貰えました)。DuckDB は S3 や HTTP(S) などの外部データを直接読み込むことができる便利な機能がありますが、処理したいファイル…
先日書いた記事では、 CSV(UTF8) 形式のファイルを dbt-duckdb プラグインで読み込み、集計した結果を Parquet ファイルとして S3 へ保存する処理を dbt で実装しました: bynatures.hatenadiary.jp この時はひとまず動くことを目標にしていたので、今日は db…
先日読んだ記事で dbt に DuckDB 用のプラグインがあると知り、dbt と DuckDB の学習も兼ねて試してみることにしました。とても簡単な実験ですが、何かの参考になれば幸いです。 今回実際に試してみて感じたのが、dbt と DuckDB の相性の良さです。手元で動…
先日 dbt + Duckdb についての Medium の投稿を読んで面白かったので Twitter に投稿したのですが、かなりの反響がありました。dbt と Duckdb というキーワードがキャッチーだからかな、と思ったのですが、改めてここでもブログの内容を少し要約してみます。…
今年頭から勉強してきた IPA ネットワークスペシャリストの試験がようやく今日終わりました。 午前Ⅰ、Ⅱは80点以上でパスできましたが、今年は午後Ⅰが非常に難しくて、基準の60点を超えていないかもしれません。。数日前から Wi-Fi 技術についての対策をして…
今年に入ってからずっと IPA ネットワークスペシャリストの試験対策をしています。ついに今週末試験です。 1日に4つの試験があり、すべてのテストで60点以上という合格率が低い難しい試験で、年に一度しか行われません。特に午後の2つの試験は20字〜60字での…
積ん読記事に残っていた dbt の記事が面白かったのでご紹介です。 Pivot 社という会社のアナリティクスエンジニアによる記事で、いくつものプロジェクトで dbt を導入した経験から、dbt を使う上での5つの指針が紹介されています。私は dbt を実際のプロジェ…
Data Mesh の提案者である Zhamak Dehghani 氏の寄稿 を読もうと思っているのですが、先んじて理解を進めるために今日もいくつか Data Mesh に関する Medium のブログを読みました。その中で Netflix 社の Data Mesh に関する記事を読んだのですが、私の理解…
昨日、ふと10年前のエントリーの修正をしました。正規表現が間違っていたのと、オートマトンへの画像が無くなっていたので追加しました。というのも、ChatGPT に要件を伝えたら正しい正規表現が作れるのではないかと思ったためです。 結果を言うと上手くいか…
家の近くでも桜が咲き始めました。在宅が多いので季節が過ぎるのがあっという間ですが、先週日曜日は天気がよくて散歩日和でした。 今日はデータメッシュについて1つです。経験がないものの知識として蓄えないとと思い、少しずつ目を通しています。 データメ…
Medium でとても目を惹くタイトルの記事を見つけました。"High-Performance Data Teams Don’t Care About Data Quality", 和訳するなら「ハイパフォーマンスなデータチームは、データ品質を気にかけない」というところでしょうか。 データ品質は DMBOK でも…
Streamlit のデータ編集機能と、それを利用した Snowflake テーブル編集についての記事の紹介です。最後に Looker と Streamlit を合わせて使っている記事を見つけたので、それも紹介します。 Streamlit data editor Streamlit のプレビュー機能ですが、編集…
今の業務柄いつも Snowflake の記事が多めですが、実務で使えそうな機能がどんどん登場していたり、データウェアハウスに特化しているのでユーザ目線でどう使ったら良いかという情報も集めやすくて、面白い記事が多いです。今日は新機能1つと Data Vault 2.0…
先日 草津に行ったのですが、草津のあたりでは花豆が名産品と知りました。そら豆ぐらいの大きさの、大きい豆です。 料理が好きで豆をたまに煮たりもするので、生の花豆を買おうとしたところ、お店の人に「豆は煮たことがあるのか」と聞かれました。「黒豆な…
Building Data Engineering Pipelines with Snowpark for Python medium.com Snowpark で実現するデータパイプライン処理に関するチュートリアルが公開されており、そのチュートリアルに関する概説です。 去年 SnowPro Core の試験を受けた時には全く出題さ…