/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

2018/12/11

Big Data Analytics Architectural Patterns and Best Practices

re:Invent でのこの資料が、包括的で分かりやすかったのでメモ。(先日見かけて、今日見直そうとしたら見つけるのに時間がかかったので。。)データの温度などの概念も交えながら綺麗に図にまとまっているので分かりやすいです。

www.slideshare.net

www.youtube.com

Presto についていくつか

ETL には向かないという話。結果が出ることが保障されていない(クエリが失敗する可能性が低くない)ことや、単純に ETL としては能力に限界があることが理由としてあげられています。Presto はクエリエンジンなので、クエリで書ける以上のことはできない、といった理由です。

それでも事例を見る限り ETL 処理で利用している企業もいくつかあったので、計算時間を短くするべき集計についてのみ使い、値の正確性は日時処理で補うなど、ETL でも使い分けができると良さそうです。

What are the pros/cons of using Presto for ETL of large datasets (e.g. 5~10TB of raw data)? - Quora

また、Presto は HBase をサポートしていません。JDBC 経由では接続できますが非常に遅いようです。

HBase Support · Issue #3992 · prestodb/presto · GitHub