CEPとMapReduce:複雑な方法で接続

最近の記事では、MPP(超並列処理)データウェアハウステクノロジとそれがどのようにビッグデータテクノロジであるかについて説明しました。また、大規模なデータセットを処理するためのHadoopのMapReduce並列計算アプローチを使用して、MPPがアーキテクチャ上共通していることについても説明しました。

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

別の3文字の頭字語がありますが、これは一度に独自のカテゴリですが、正当なBig Dataプレイヤーでもあります:CEP(複雑なイベント処理)。 CEPエンジンは、連続したデータフロー(フィード、センサーの読み取り、および大量かつ非常に高速な他のイベント駆動型データなど)をリアルタイムで処理します。 CEPエンジンは、Oracle、Sybase / SAP、Microsoftなどのメガベンダー、TIBCOなどの統合プレイヤー、StreamBaseやOneMarketDataなどの純粋なプレイ会社から入手できます。

他のデータ関連のドメインと同様に、CEPとHadoop / MapReduceの間には多くの相互受粉と集約が起こっています。極端な例として、私は、HadoopがCEPエンジンであると主張するブログ記事を見てきました。しかし、他にも、あまり議論の余地のない例があります。

2011年8月、TwitterはBackTypeと呼ばれる会社とStormという製品を買収しました。ストームは、トポロジと呼ばれる処理アーキテクチャを使用して、マシンのクラスタ上で並列にデータをストリーミングします。このようなテクノロジーは、Twitterのようなソーシャルメディアデータのホットベッドでうまく機能します。トレンドのあるトピックを決定するために必要なリアルタイム処理について考えると、そのアイデアを得ることができます。ストーム氏は、MapReduceは「ジョブ」をバッチ処理し、ストームはストリームをリアルタイムで処理すると指摘しています。 StormとMapReduceは分かち合う並列性を共有しており、StormはHadoopのApacheサブプロジェクトとして始まったZooKeeper分散プロセスコーディネーターを使用しています。 Twitterは2011年9月にStormのオープンソースを公開しました。したがって、Stormのマッシュアップやその他のデータ中心のテクノロジーが盛り上がっているかどうかを探します。

もう1つ興味深いCEP-MapReduceのクロスオーバは、Microsoftから来ています。これはStreamInsight CEPエンジン(SQL Serverリレーショナルデータベースの一部として提供される)がMicrosoft-Hortonworks Hadoop for Windowsディストリビューションと連携して動作する方法を考案しました。興味深いことに、マイクロソフトでは、StreamInsightエンジンをHadoopのMapReduceジョブの減速段階にシムする方法を考え出しています。これについては、Microsoftのブログ記事で例を挙げて説明します。

これらは、CEPとビッグデータ技術をどのように論理的かつ有益な方法で組み合わせることができるかを示す数例に過ぎません。データの視覚化、予測分析などの他の多くのデータ技術は、同様にビッグデータに適合し、定義を拡張します。我々は確かに将来の記事でそれらの詳細を見ていきます。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実を自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任