DatabricksはHadoopとApache Sparkを使いやすくします

DatabricksのCEOであるIon Stoica氏、カリフォルニア大学バークレー校のコンピュータサイエンス教授、Arsalan Tavakoli-Shiraji(ビジネス開発およびパートナーシップ)は最近、Apache Brarkについて語りました。このプロジェクトではDatabricksの役割と組織既に持っている運用データから実際の価値を抽出する。

Apache Sparkは、Hadoopなどの大規模なデータアプリケーションを、メモリ内のクラスター化されたデータエンジンを使用して高速化するために設計されたプロジェクトです。 Apache FoundationはSparkプロジェクトをこのように説明しています

Sparkは、Hadoopデータを処理するための高速かつ強力なエンジンです。 Hadoop YARNまたはSparkのスタンドアロンモードでHadoopクラスタで動作し、HDFS、HBase、Cassandra、Hive、および任意のHadoop InputFormatでデータを処理できます。一般的なデータ処理(MapReduceに似ています)とストリーミング、インタラクティブクエリ、機械学習などの新しいワークロードの両方を実行するように設計されています。

SparkはScala、Java、Pythonをサポートしています。

Apache Sparkとは何ですか?

6つのビジネスクラスのクラウドストレージサービス:どれが適切か?Windows Azureネットワーク上のMicrosoftエンタープライズプライマリ、SaaSとクラウド:ITプロフェッショナル向けのプライマリ

1,000を超えるノード上での複数の展開について認識しています。

Databricksは、Apache Sparkの創設者であり、Conviva、Opsware、Nicriaなどの企業を立ち上げた経験が豊富な多くの役員によって設立された会社です。

同社はクラウドサービス「Databricks Cloud」を提供しており、企業はすぐにApache Sparkを使い始めることができます。 Databricks Cloudはメタデータを処理し、Spark Clusterを起動しプロビジョニングし、AmazonのS3サービスに格納されている組織のデータをそのクラスタが処理することを容易にします。

Databricksクラウドは、データを「ノートブック」に整理し、ダッシュボードを使用してデータを簡単に視覚化できるようにすることで、分析者を支援します。また、機械学習(MLib)、GraphX、Spark SQLを使用してデータを簡単に分析することもできます。

Databricksは、組織がデータから真の価値を引き出すのをどのように支援しますか? Databricksは、Apache Hadoopは多くの独立した、しかし関連したプロジェクトで構成されているという課題を指摘しています。まず、組織はこれらのプロジェクトについて、その技術が果たす役割、組織の問題を解決するための方法を学ぶ必要があります。次に、Hadoopクラスタを構築する方法と、データを準備する方法を学ぶ必要があります。その後、彼らはデータを探索し、いくつかの洞察を得るプロセスを開始することができます。

Databricksは、そのサービスにサインアップし、組織のデータを指し示し、データのカタログ化と分析のプロセスを開始することを削減したいと考えています。 Databricksは、適切なツールを収集し、それらを構成し、多数の独立したプロジェクトを組織がすぐに使用できるツールに変える作業を行っています。

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

組織のデータを処理する詳細については実際にはわかりませんでしたが、Databricksはプロセスを大幅に簡略化しました。あなたの組織が大きなデータプロジェクトを開始している場合、Databricksは良い会社になるでしょう。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実を自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任

Databricksは誰ですか?

大きなデータから真の価値を引き出す