/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

2023/03/02 読んだ記事まとめ(Snowpark, Iceberg with EMR)

Building Data Engineering Pipelines with Snowpark for Python medium.com Snowpark で実現するデータパイプライン処理に関するチュートリアルが公開されており、そのチュートリアルに関する概説です。 去年 SnowPro Core の試験を受けた時には全く出題さ…

2023/02/22 読んだ記事まとめ(Snowflake Query Acceleration, dbt+Redshift)

先日 草津に行ったのですが、草津のあたりでは花豆が名産品と知りました。そら豆ぐらいの大きさの、大きい豆です。 料理が好きで豆をたまに煮たりもするので、生の花豆を買おうとしたところ、お店の人に「豆は煮たことがあるのか」と聞かれました。「黒豆な…

2023/02/21 音楽系AIサービス Soundraw / Bigquery のカラムレベルマスキングの追加機能

今日落合陽一さんが話すPIVOT 公式チャンネルの動画を見て、音楽ももうAIサービスで作れるのかと気づき、早速使ってみました。 YouTube に動画をたまに投稿しているのですが、いつも背景音楽に困っていました。Youtube Audio Library という著作権フリーで使…

2023/02/16 読んだ記事まとめ(BIG DATA IS DEAD, DuckDB)

同僚に教えてもらった DuckDB について目につく記事が出ていたので読んでみましたが、DuckDB の根本思想とも言うべき記事でした。 BIG DATA IS DEAD motherduck.com DuckDB は、PC上で分析してしまおうというスケールアップの考え方で開発されている分析用デ…

2023/02/16 HTAP -> Snowflake Unistore

今日も読んだ記事まとめですが、Snowflake Unistore から HTAP の方に手が伸びました。 Unistore -> An evolutionary workload of Snowflake medium.com まだプライベートプレビュー段階のようですが、Snowflake の Unistore についての紹介記事です。OLTPと…

2023/02/15 読んだ記事まとめ(DATA MESH in Snowflake)

この前ラジオで流れて来た 燃え殻 さんという作家の話し口が心地よかったので、本も読んでみました: すべて忘れてしまうから これはエッセイ集なのですが、不思議と自分の昔の忘れていたことを思い出しました。タイトルにもあるように、人間は日々いろんな…

2023/02/10 読んだ記事まとめ(dbt Labs社によるTransform Data社の買収の最終契約)

こちらの記事が昨日 Twitter で流れて来ました: www.getdbt.com Dataform と見間違えて一瞬混乱しました。。(余談:Dataform は dbt と同じく SQL をベースにパイプラインを構築できるサービスで、Google Cloud に買収されました)。上の記事は Transform …

2023/02/08 読んだ記事まとめ(Snowflakeの3つのロール)

ChatGPT に関する話題で慌ただしいですね。Google は社内でコードレッド(緊急事態)を宣言して対応しているという報道もあります。 (1)検索→(2)検索結果からWebサイトを選ぶ→(3)記事を読む→(4)探している情報を見つけるという4ステップが、(1)ChatGPTに聞く…

2023/02/06 読んだ記事まとめ(データマネジメントのロール, 2023年のCDO動向)

データマネジメント関連の動向に関するブログ記事を2つ読みました。2つめの記事は精読した上で ChatGPT に日本語要約させたのですが、手直しは必要なものの一から和訳するよりは遥かに早くて助かります。 Data Governance Organization and Titles www.ewsol…

2023/02/04 読んだ記事まとめ(Kafkaユースケース, 音声合成など)

友人が ChatGPT で論文記事を要約して読んでいると聞き、質問をしたりするだけでなくそういった使い方も出来るのかと驚きました。今日は Confluent 社からの長めの記事を読みたかったので ChatGPT も使いながら読みましたが、非常に便利ですね…。記事本文を…

2022/02/01 読んだ記事まとめ(Lambda with SQS, Cloud Logging in Google Cloud, OpenAssistant)

気分転換にヘッダを変えてみました。Iittala社のキャンドルホルダーが大好きで、(まだ一応)趣味のカメラと組み合わせてキャンドルを撮影したりしているので、その画像を拝借。冬場にはもちろん、友人が家に来たときなんかに使うと、少しムードが出て良い感…

2023/01/27 Google Cloud Professional Data Engineer に合格しました

去年末のことなのですが、Google Cloud の Professional Data Engineer の資格に合格しました。これで2022年にSlalomに入社してから、Databricks Associate Data Engineer, Snowflake ProCore, Google Cloud Professional Data Engineer の3つのデータエンジ…

Snowflake のクエリ内変数と、executemany のテーブル指定に identifier が使えない話

Snowflake を Python から利用していて、クエリ文字列に変数をバインドする方法がややこしかったので共有します。クエリ内でプログラムから変数を渡す %s, :1, ? などですね: Using the Python Connector — Snowflake Documentation con.cursor().execute( "…

2022/11/26 SnowPro Core を取得しました

今の会社 Slalom に転職してそろそろ半年経ちます。Slalom はシアトルに本社を構えるコンサルティングファームで、テック系コンサルと言えばいいんでしょうか。この業界に入ってまだ日が浅いのですが、社内で学ぶことも多く、同僚も知見が深く面白い方ばかり…

2022/09/24 Data Vault 2.0 輪読会に参加しました

今年の春〜初夏にかけて Data Vault 2.0 についての輪読会に参加しました。途中は退職・転職などでバタバタしていて参加できなかったのですが、Data Vault の概念を理解でき、dbt などの ETL ツールについての話題も多く、とても勉強になりました。色々と感…

2022/05/07 空白期間 振り返り

先月4月末に某ウェブ系企業での最終出社を迎えました。 丸7年務めることとなり、最初3年半は研究部署でビッグデータ基盤の開発とその上で動くBIツールの開発、後ろ3年半はいろいろなサービス部署の方とやりとりをしながら、データ連携を支援する部署にいまし…

2022/02/23 輪読会を始めました: "Star Schema - The Complete Reference"

datatech-jp で Star Schema The Complete Reference という書籍の輪読会を始めました。 Star Schema The Complete Reference 私は横断組織にいて、サービス事業部の方たちの支援をするのが仕事なのですが、そのためにデータオーナーになったりすることがほ…

2022/01/21 レイクハウスアーキテクチャについて

最近よく Snowflake, Databricks 社のサービスを目にするようになり、私の所属している会社でも(部署は違いますが)Snowflake の導入を行っているようです。その中で "Data Lakehouse" という単語を目にしたので、どういう概念なのかを調べました。 実際に…

2021/12/08 データモデリングの文脈変化

DMBOK で一番読むのを楽しみにしていたのがデータモデルの章だったのですが、いざ読んでみると細かすぎるというか、求めていたものと違う感覚がありました。私がドメイン駆動設計から生成されるモデルの実用性に興味をもっていた時期なので、実践的な内容を…

2021/12/03 DMBOKを横断組織で活用した話 #datatech-jp #AdventCalendar2021 #day3

datatech-jp Advent Calendar 2021 3日目への投稿です。 今年は datatech-jp のコミュニティの方達と話をしたり、輪読会に参加させていただくことができました。datatech-jp 自体の説明は1日目の投稿からご覧いただけます。Slack チャネルもあり、気軽にいろ…

2021/11/02 ビジネス用語集の整備を始めました

データマネジメントの推進という立場から社内でいろんな方と話をするのですが、データマネジメントの様々な領域の中で自信を持ってアドバイスできるもの、できないものがありました。その中の一つに DMBOK に繰り返し登場する「ビジネス用語集」がありました…

2021/07/27 Data Governance: The Definitive Guide の輪読会に参加しました

Twitter でのお誘いをみて、データガバナンスに関する以下の書籍の輪読会に参加させていただきました: Data Governance: The Definitive Guide: People, Processes, and Tools to Operationalize Data Trustworthiness (English Edition)作者:Eryurek, Evre…

2021/06/04 ビジネス用語集とは何か

以前こんなツイートをしたら反応をいただきました。やはり「ビジネス用語集は大事」というのは色々な場所で説明されているようですが、具体的にどういうものなのか?と言われると私はまだよく分かりません。 ビジネス用語集が大事、とはよく聞くけどちゃんと…

2021/04/23 ハーバードビジネスレビュー: 「データ管理は戦略である」を読んで

輪読会への参加 "Data Governance: The Definitive Guide" 本日からデータガバナンスに関する書籍の輪読に参加させています: www.oreilly.com 社外の方とデータマネジメントについて議論できるのはとても貴重な機会でありがたいです。普段業務で悩んでいる…

2021/04/22 文字の発明とデータマネジメント

データマネジメントについて色々と勉強したり業務をしていく中で、『「データマネジメント」と名前は付いているけれど、とても普通のことをしているのでは』という感覚がでてきました。もちろん技術的な話はあるのですが、ガバナンスが大切だとか、用語集を…

2021/03/12 データマネジメント成熟度のフレームワークに何を使えばよいか

データマネジメントについて色々考えている時期で、今日は成熟度について。 様々なフレームワーク とあるプロジェクトでデータマネジメント成熟度を測ろう、となったのですが、成熟度を測るフレームワークにも色々あるようです。 www.cloudtimes.jp こちらの…

2021/03/05 データマネジメントは成熟度から進める

雑談:テレビについて 最近 NHK の ねほりんぱほりん がかなり気に入ってます。見ないようにしてきた世界(最近の放送だと戸籍がない人、闇金の取り立て人、DVをしていた人)のドキュメンタリーをあんなふんわりしたテイストで提供するなんて驚きです。。番…

2021/02/19 データマネジメント改善の難しさ

最近、業務ではデータマネジメントの改善に取り組んでいます。 「データマネジメント」と一言にいっても、国際的な非営利団体 DAMA は DMBOK という、データマネジメント体系ガイドをまとめています。DMBOK が制定する領域では、以下の11の領域がデータマネ…

2021/02/03 「内向型を強みにする」を読んで

ブログがすっかりご無沙汰になってしまいました。今見たら2019年の6月に書いたのが最後でしたね。 2019年、夏頃にチーム内の上長が退職してしまって、その代わりを務めることになってマネージャーとしてタスク管理や目標設定・面談なども行うようになりまし…

2019/06/24 PlantUML によるロバストネス図

ユースケース駆動開発の手法を実践しているのですが、ロバストネス図・シーケンス図・ドメインモデルと、とにかく「図」を作ることが多いです。これを簡易にしないと作業効率がとても悪いということで、調べたところ PlantUML というツールがありました。 同…