2019-11-23 (土) 15時15分
Yahoo! JAPANのログ収集を支えるSchema-less columnar format "Yosegi" の紹介
講師:大戸 康紀(ヤフー株式会社)
担当:ヤフー株式会社
対象者:データ分析を目的としたデータ蓄積システムを構築しようとしている人
前提知識:Hadoop におけるデータ分析
ヤフーではサービスのログをリアルタイムに収集し HDFS に保存しています。
保存時のフォーマットには多様なスキーマと膨大なログ量の対処が求められます。
多様なスキーマには JSON、膨大なログ量にはカラムナフォーマットが選択肢としてありますが、
スキーマの柔軟性と処理性能はトレードオフの関係にあります。また、カラムナフォーマットで
保存する過程でスキーマが必要なため、スキーマ管理を備える複雑なログ収集システムになります。
この課題に対してスキーマレスカラムナフォーマット「Yosegi」を開発し、スキーマの柔軟性と
高い処理性能を両立しつつ、スキーマ管理が不要なログ収集システムを実現しました。
セミナーでは、OSS として公開している「Yosegi」を利用したログ収集システムとスキーマ更新に
ついての事例を紹介しつつ、ORC, Parquet との比較を言及します。
【カテゴリ】データベース