ビッグデータをリアルタイムに処理するための、 Amazon Kinesis、Apache Storm、かもめ GUSTを比較してみました!
講師:納村 康司(かもめエンジニアリング)
担当:かもめエンジニアリング株式会社 / オープンソース活用研究所
レベル:入門編
対象者:ビッグデータやIoTに関わる方
前提知識:なし
■Hadoopはバッチ処理
従来のHadoopに代表されるビッグデータ処理は、データを一定期間(例えば1日)蓄積し、それを高速にバッチ処理することで行っていました。
しかし、スマートデバイスやIoTの普及により、データ量がさらに増加している状況の中で、よりリアルタイムにデータを処理したいというニーズが高まっています。
■リアルタイムデータ処理(ストリームデータ処理)とは
「リアルタイムデータ処理(ストリームデータ処理)」は、大量に発生するデータを、発生したタイミングで逐次リアルタイムで処理するデータ処理技術です。
似たような方式として、Apache Sparkなどを使った方法がありますが、これはバッチ処理の単位を小さくし実行頻度を上げるというアプローチです。「リアルタイムデータ処理(ストリームデータ処理)」はデータが発生した都度、1件ごとに処理します。
「リアルタイムデータ処理(ストリームデータ処理)」は、不正の検出、クリック ストリームの分析、金融取引関連の警告、IoT関連デバイスのモニタリング、ソーシャル分析、ネットワーク監視など、リアルタイム性が要求される大量データ処理に適しています。
■Amazon Kinesis、Apache Storm、かもめ GUSTの比較
本セッションでは、「リアルタイムデータ処理(ストリームデータ処理)」の主要製品である、Amazon Kinesis、Apache Storm、かもめ GUSTについて、その違いやメリット、デメリット、活用シーンの棲み分けなどについて、解説します。
【カテゴリ】ビッグデータ/IoT