/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

hadoop

2023/07/05 Apache Flowman(YAMLでETL処理が書けるOSSプロダクト)の紹介

Medium で見つけた記事をいくつか紹介しようと思ったのですが、Flowman の記事が長くなったので Docker でのデモも交えながらご紹介します。 Flowman — A Declarative ETL Framework powered by Apache Spark kupferk.medium.com Flowman という Apache ライ…

2019/06/12 Hive CLI のアーキテクチャ

hive CLI コマンドは非推奨で、今後は beeline 推奨(JDBC/Thrift で HiveServer2 へ接続)とのことですが、どうにも HiveServer2 は運用していて良い思い出がないので(私が利用している環境だと定期的に再起動しないと応答がなくなる。。)、最近あまり状…

2018/12/07 Netflix のデータ分析基盤事例

来週土曜日、12月15日に JJUG CCC 2018 Fall が開催されます。 JJUG CCCは毎年2回、春と秋に開催する日本最大のJavaコミュニティイベントです。Java関連の技術や事例に関する良質なセッションが行われ、また異なる分野で活躍するJava技術者が一堂に会する場…

2018/12/04 Hive のマテリアライズドビュー

2019年の手帳を買い、12月から使おうと予定を書き込んで数日使っていたところ、2018年ではなく2019年の12月にずっと書き込んでいることに気づきました。無印の手帳なのですがウィークリーに「年」が付いていないので気づきませんでした。。買い換えるのもも…

2018/11/30

いよいよ12月ですね。街中のクリスマスムードも一気に加速するんでしょうか。イルミネーション見るのも寒いのも好きなので、一年で一番楽しみな季節です。 勉強会・忘年会の予定がすでにいくつか入っているので、師走の文字通り忙しくなりそうです。ひとまず…

2018/11/26 Hadoop ResourceManager HA 構成の設定(メモ)

Hadoop 系のプロダクトはパラメータが多く、業務で私が設定することは少ないので、何かの調査のたびにいつも調べたり眺めたりしているだけなのですが、、忘れがちなので文章にしてみます。 Hadoop 本家はこちら: Hadoop – Apache Hadoop 2.8.5 そして特に Y…

HiveServer2 のメモリ使用量はパーティション数が関係する

まだ詳しく調べられていないのですがメモ代わりに。 先日 HiveServer2 を利用する機会があり、負荷がどのぐらい掛かるかを確認していました。Cloudera の説明によると、同時コネクション数にも依存しますが数GB〜数十GBのヒープ領域が必要だとあります: Con…

YARN の DRF スケジューリングについて

会社で Hadoop The Definitive Guide(いわゆる象本)の第4版を読んでいるのですが、その中の YARN の章で、ジョブスケジューリングのアルゴリズムである Dominant Resource Fairness (DRF) の説明があります。 YARN で複数のリソース(CPU, メモリなど)を…

memo: MapR 4.0.1

MapR セミナーのメモを備忘録代わりに残します。間違ってたらご指摘ください。 Drill も MapR-DB(より使いやすいHBase) も MapR なら利用可能ということで、Drill が AWS で利用可能になるのでしょうか…。そう思うと非常に期待が高まります。S3 になんでもか…

「Hadoop 徹底入門 第2版」第2部まとめ(Hive での開発)

「Hadoop 徹底入門 第2版」を有志で読み進めているので、そのメモを貼ります。 今回は第2部 13章、Hive での開発方法と Tips です。 [toc]

「Hadoop 徹底入門 第2版」第2部まとめ(Java での開発)

「Hadoop 徹底入門 第2版」を有志で読み進めているので、そのメモを貼ります。 今回は第2部、8章〜10章、Java での開発方法と Tips です。 [toc]

「Hadoop 徹底入門 第2版」第1部まとめ(開発手段・クラスタ構成)

「Hadoop 徹底入門 第2版」を有志で読み進めているので、そのメモを貼ります。 今回は第1部、6章〜7章、Hadoop を動かす様々な方法とクラスタ構成の話です。 [toc]

「Hadoop 徹底入門 第2版」第1部まとめ(HDFS・MapReduce)

「Hadoop 徹底入門 第2版」を有志で読み進めているので、そのメモを貼ります。 今回は第1部、4章〜5章、コア技術である HDFS, MapReduce の説明です。 [toc]

「Hadoop 徹底入門 第2版」第1部まとめ(基礎知識・インストール手順)

「Hadoop 徹底入門 第2版」を有志で読み進めているので、そのメモを貼ります。 今回は第1部、1章〜3章、Hadoop の基礎知識からインストール手順までをご紹介します。 また、概要をこちらのスライドにまとめてありますので、合わせてご覧ください。(社内勉強…

(追記) Hadoopもとい、AmazonEMRを使ってみた

前の日記から一転、最近は楽しく過ごしています。 仕事ももちろん、11月12月はプライベートや勉強会も充実しています。あとMacBook Air が届いたので、大学院時代に使っていたAirと久々のご対面…という感じで、この3連休はずっとAirをいじってます。Leopard…