大きなデータ:私たちは技術を持っていますが、人々はいますか?

組織は大量のデータに溢れており、顧客の好みや市場の成長を理解し予測する巨大な機会を提供しています。競争の激しい世界経済において、適切な情報を持つことは競争上の優位性を意味します。

セキュリティー; Hyperledgerプロジェクトは、ギャングバスターズのように成長しています; CXO;技術執行デッキをシャッフルするANZ銀行;銀行業務;国際送金のためのブロックチェーンシステムをテストするためのビザ;ビッグデータ分析;?NAB、Westpacに支えられたオーストラリアのスタートアップ、Open Data Marketplace

しかし、このすべてにキャッチがあります。情報のニルヴァーナに到達するためには、会社には適切なスキルを持つ人が必要です。データの管理方法、分析システムの構築方法、データの理解に役立つ方法を理解している人。

最近のEMCのデータ・サイエンス・サーベイはこれを支持しています。新しい技術がデータ・サイエンスの需要を増加させると感じたのは83%であり、64%は利用可能な人材の供給を上回ると考えています。実際、McKinsey Global Instituteの調査によれば、今後6年間で、米国だけでも、深い分析能力を持つ14万〜19万人の不足に直面する可能性があり、分析を使用するノウハウを持つ150万人のマネージャーとアナリスト効果的な意思決定を行うための大きなデータ

TechTargetのBeth Stackpole氏は、今日の専門職従業員は従来の構造化されたデータ環境を管理するよう訓練されているが、HadoopやMapReduceなどの大規模なデータ環境やオープンソースプラットフォームを扱う準備はできていないと指摘した。 「データ管理チームは、高度に構造化されたデータの管理と編成、SQLでのレポートの作成に関する明確な専門知識を持っていますが、従来のスキルセットは、大きなデータの構造化されていないフラットファイル部分コマンドラインとNoSQLデータベース技術は、新興プラットフォームの大部分の主要ビルディングブロックです。

ApacheのオープンソースプロジェクトであるHadoopは、複数のノードに大量のデータを格納し、Hadoop分散ファイルシステム(HDFS)と呼ばれるアクセス可能な形式に圧縮するために設計されたオープンソースコンポーネントの集まりです。 MapReduceは、しばしばHadoopと組み合わせて使用​​され、データの上に分析機能を構築するためのプログラミング構造です。 NoSQL(「SQLだけでなく」)データベースは、Weblogs、文書、テキスト、PDF、ビデオ、およびオーディオを含む非構造化データを処理します。

同時に、大規模なデータの課題や機会を管理するために必要な才能を探す必要もありません。 InformaticaとClouderaが共同スポンサーとなった一連のWebキャストの一環として、私は大規模なデータ爆発の最前線で経営幹部やコンサルタントと話す機会を得ました。

たとえば、KloutのCTOで共同設立者のBinh Tran氏は、ソーシャルネットワーキング評価サービスが取り組んでいる「ナンバーワン」の課題であると指摘しています。 「最初に始めたのは、それを掘り起こしてオンライン文書に入ることでした。大規模な生産経験を持つ人材を見つけることは基本的に困難です。私たちはYahooとFacebookの世界から人々を雇う必要がありました」Tranは、少なくともSilicon Vally地域では、HadoopとMapReduceをカリキュラムの一部として提供する大学が増えていると報告しています。

ベンタナ・リサーチのアナリスト、David Menninger氏は、169人の幹部のうち4分の3以上が、人材派遣やトレーニングの問題が大きなデータを最大限に活用する上での最大の障害であるとの最近の調査結果を指摘しました。

スキルは短いが、状況は絶望的ではない、ClouderaのOmer Trajmanは指摘する。 Hadoopのような大きなデータソリューションに対処する能力は、「ロケット科学ではなく、人々がそれを学ぶことができる」と述べている。ちょうど数年前、「Hadoopを知っていたのは2人しかいませんでした」 – 現在、その数は拡大しています。 「組織は社内で持っているスキルセットを見て、人々を訓練するよう勧めます。適切な背景を持ち、Hadoopの使用方法を学ぶことができる人がたくさんいます。 「すでに学び、雇用している個人を見つけることだけではありません。あなたの組織内に実際にこのような役割に成長できる個人がいる… Hadoopを学ぶことができる人がたくさんいる」

大きなデータで役割を果たすポジションは次のとおりです

システム管理者:クラスタの日々の運用を担当します。 「ハードウェアコンポーネントを直接的または間接的に管理し、追加のハードウェアの必要性を認識し、オンボードにすることができます」責任と監視と構成も含まれています。また、Hadoopと他のシステムとの統合も担当しています。

開発者:プラットフォームと分析アプリケーションを構築します。 「彼らはツールやアルゴリズムに精通しており、異なるMapReduceジョブの作成やパッケージ化、最適化や配備を行っている可能性があります。 Trajman氏は、「彼らはさまざまなライブラリを提供し、維持するだろう」と付け加えた。 「彼らの役割は、データベース世界のDBAの役割と似ています。

データアナリスト/データ科学者:データアナリストとデータ科学者は同じカテゴリーに分類されています。これらの専門家は、分析問題にアルゴリズムを適用し、データマイニングを行います。 「データを使ってストーリーを伝える彼らの能力は、そのストーリーを定義するものです」とTrajman氏は言います。データ製品の作成、ビジネスを推進するデータソリューションの作成に役立ちます」

データスチュワード:最終的に品質データの収集に責任を負う “データスチュワードは、すべての着信データを管理し、カタログ化する。組織の周りには多くのデータが浮遊しており、Hadoopはそれを集中化できます。したがって、ETL [抽出、変換、ロード]とデータモデリングのバックグラウンドを持つ上流のデータモデルを特定することは、すべて典型的なスキルと背景です。

Trajman氏は次のように述べています。「これらのスキルセットはすべて今日、組織内に存在しています。

(この記事は、SmartPlanet Business Brainsでクロス・ポストされています。)

Hyperledgerプロジェクトはギャングバスターのように成長しています

ANZ銀行、技術エグゼクティブデッキをシャッフル

国際送金のブロックチェインシステムをテストするためのビザ

NAB、Westpacに支えられたオーストラリアのスタートアップがOpen Data Marketplaceを開始