/home/by-natures/dev*

データ界隈で働くエンジニアとしての技術的なメモと、たまに普通の日記。

2018/11/21 LINE DEVELOPER DAY 2018

先日、LINE DEVELOPER DAY 2018 に参加してきました。

linedevday.linecorp.com

engineering.linecorp.com

資料は後日公開されるようですので詳しくはそちらをご覧ください。 公開されていました、SlideShare から閲覧できます:

www.slideshare.net

数日時間が経ってしまったので、以下簡単な感想まで。。

全体的なところでは、資料が全て英語だったり、発表は英語と日本語のものがありましたがどちらも通訳レシーバーを利用することができました。発表も通訳されることを意識してか、ハキハキした口調で日本語も英語も聞きやすかったです。TED talk を聞いているような錯覚に陥りました。w 資料準備、発表準備どちらもかなり時間をかけているなという印象です。英語でのプレゼンや、海外学会での学術的な発表を行っていたりと、グローバル企業であることを強く主張しているように見えました。

今回聞いたのは以下のセッションです。手元のメモや記憶頼りで書いているので正確には後日公開されるし資料をご覧ください。

How does LINE effectively handle media content?

www.slideshare.net

LINE での画像・動画データなどをどう世界中の拠点で効率よく扱っているか、という話で、データの種類に応じてキャッシュの仕方を変えたりされていました。同じ画像でも、グループラインであれば多数のユーザに見られるので効率的なキャッシュをし、個別ラインであればそうでない・・・といったような細かいハンドリングをしていた印象です。

また、2019年に LIME(LINE Media)という GPU を利用したメディアデータのプロセッシングの仕組みを OSS 化を目指しているそうです。

Multi-Tenancy Kafka cluster for LINE services with 250 billion daily messages

www.slideshare.net

LINE のサービス間で利用される Kafka クラスタの話です。利用用途としては主に2つで、1つはアプリケーションが分散処理させるためのキューとして利用していて、2つめの利用用途は他のサービスへアクションなどを伝えるデータハブとして利用されているということです。1つの Kafka クラスタへ処理を集めることによって、データを見つけやすくし、オペレーションの効率化を目指しています。

発表の中では、Kafka クラスタに対する要件として、クライアント間で isolation を保つこと、とありますが、以前 Kafka クラスタがこれに反した動作をしていたということです。Kafka のソースコードや Linux カーネル API を調査して原因の発見・解消を行っているストーリーは技術力の高さを感じさせました。

Efficient And Invincible Big Data Platform In LINE

www.slideshare.net

LINE でのビッグデータに関する取り組みの全体像についての紹介です。Pipeline platform, Analysis platform, Security, Monitoring, Tuning という流れで紹介されていました。特に分析基盤として、1668Hive テーブル、25PB、550ユーザーというのは圧巻の大規模です。

OASIS - Data Analysis Platform for Multi-tenant Hadoop Cluster

www.slideshare.net

OASIS という、誤解を恐れずに言えば全社で利用できる BI ツールの紹介です。

OASIS は利用ユーザを分類し、様々なスキルを持った人が適切に LINE のデータを扱えるようにしています。例えばレポートを見るだけの人は Manager として扱い、クエリだけでなくプログラムが書ける人は Engineer として分類し ETL 処理を記述することができます。また、データサイエンスの技術がある人はアドホック分析を行うこともできます。

当初は既存の OSS で BI ツール(Apache Zeppelin など)の運用をしていたそうですが、セキュリティや安定性の面、また YARN アプリケーションの扱い方が合わずに自前で開発することに決めたそうです。Apache Zeppelin や Jupyter Notebook のような「ノート」単位での見やすいレポート機能は踏襲しつつ、YARN アプリケーションのリソース管理を効率よく行えるようにしたり、スケジューリングを設定できることでレポーティングツール+ETL サービスとして運用しているようです。

発表を聞く限り多くのユーザが OASIS を利用しているようで、細かいところも配慮した作りで OASIS が使いやすくなるよう配慮しているように見えました。例えば、レポートごとに誰が見れるか権限を振るのは運用上煩雑なので、その人が所属するチームに自動的にレポート共有されるようにする、などです。細かいことですが、基礎的な技術に合わせて細かい配慮の積み重ねで BI ツールが広く使われるかどうかが変わってくるかもしれないな、と感じました。