/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

hive

2019/06/12 Hive CLI のアーキテクチャ

hive CLI コマンドは非推奨で、今後は beeline 推奨(JDBC/Thrift で HiveServer2 へ接続)とのことですが、どうにも HiveServer2 は運用していて良い思い出がないので(私が利用している環境だと定期的に再起動しないと応答がなくなる。。)、最近あまり状…

2018/12/04 Hive のマテリアライズドビュー

2019年の手帳を買い、12月から使おうと予定を書き込んで数日使っていたところ、2018年ではなく2019年の12月にずっと書き込んでいることに気づきました。無印の手帳なのですがウィークリーに「年」が付いていないので気づきませんでした。。買い換えるのもも…

HiveServer2 でジョブ進捗は取得できない?

HiveServer2 を使っているのですが、Hive クエリ(というか MapReduce)は場合によっては時間がかかるため、ユーザーの方に「クエリの進捗を知る方法はないか」と尋ねられました。利用側からすると、数十分で終わるのか、数時間で終わるのか、なんとなく具合…

Hive の予約語で CREATE TABLE, SELECT する

MySQL など通常の RDBMS もそうですが、Hive にも予約語があり、そのままではカラム名に利用することができません。バッククオート(バックティック)を利用することで予約後をテーブルのカラムに利用することができます。 Hadoop Blog: How, in hive, to cr…

HiveServer2 を JDBC で利用する場合に cancel() できるのは 0.13.0 から

調べたことのメモです。 HiveServer2 を JDBC から使ってるのですが、cancel() メソッドを使えるのは Hive 0.13.0 以降とのこと。2014年3月に以下のチケットが解決されているので、Hive を更新できていない環境ではクエリのキャンセルが行えない可能性があり…

Jackson パッケージは fasterxml が新しい

少し前に、Jackson パッケージを使おうとしてハマったことがありました。 Jackson には com.fasterxml.jackson グループのモノと org.codehaus.jackson のモノがあります。Jackson は 2.0.0 以降からネーミングスペースが前者の com.fasterxml.jackson に移…

HiveServer2 のメモリ使用量はパーティション数が関係する

まだ詳しく調べられていないのですがメモ代わりに。 先日 HiveServer2 を利用する機会があり、負荷がどのぐらい掛かるかを確認していました。Cloudera の説明によると、同時コネクション数にも依存しますが数GB〜数十GBのヒープ領域が必要だとあります: Con…

「Hadoop 徹底入門 第2版」第2部まとめ(Hive での開発)

「Hadoop 徹底入門 第2版」を有志で読み進めているので、そのメモを貼ります。 今回は第2部 13章、Hive での開発方法と Tips です。 [toc]