?マーケティングナンセンスをカット:実際のデータ科学者は立ち上がれますか?

Blue YonderのPaul Schaack:マーケティング担当者の中には、データ・サイエンティストと呼ばれるものもあります。それはデータ科学とは関係ありません;ウェブサイト

データ・サイエンティストに関する2つの重要な事実:彼らは不足しており、ほとんどの人は実際に彼らが何をしているのかわかりません。需要がありながら誤解されていることの不幸な組み合わせは、マーケティングの職務題の無頓着な使用によって複雑になります。

予測分析のSaaS企業のBlue Yonderの元CERNの物理学者、ポール・シャック(Paul Schaack)氏は、「データ・サイエンティスト」という言葉はあいまいであり、ビジネス界の多くの人々がその役割を誤ってしまうという問題があると語る。

「今日、データ・サイエンティストとして定義されていることを知ることは面白い。なぜなら、多くの人がそれを自分自身と呼んでいるからだ」マーケティングの人々はデータ・サイエンティストと呼んでいる。しかし、2つのグループを比較すると、それは2つの異なる世界のようだ」と彼は言った。

ビッグデータの詳細

Cortana Analytics:Microsoftのクラウド分析Prix fixe、SAP、EsriのHANAジオスペースインテグレーション、仮想化されたHadoop:可能性の概要、Apache Atlas、Parquetの進捗状況、Whirrの引退、マーケティング担当者による新しいレポートによる予測分析ツールの活用; MariaDB Corpは開発者向けにChefとDockerの機能を強化し、Microsoftは分析サービスをバンドルし、Cortanaフロントエンドを追加しました;ビッグデータの大きな問題:現実世界で動作させる方法

マーケティング担当者は、顧客の洞察データを見て、それを使用しています。彼らが行っているビジネスの洞察、純粋な分析、データ科学とは何の関係もなく、結果を推論したり定量化する統計的方法は使用していません。

Schaackによると、データ科学者は、ソフトウェアエンジニア、データアナリスト、統計学者の融合でなければなりません。

テープストレージと分散コンピューティングは、物理分野の最新の発見の中核をなすものです。

「これは技術、機械学習、統計のようなものだから、典型的な統計学者は、マーケティング担当者よりもデータ科学者のほうが多い」というのは、データ科学者が望むものについて、それはなぜかと驚いている」と彼は言った。

2週間前、CERNのLHCb実験の科学者たちはペンタクアクと呼ばれる新しい粒子の発見を発表しました。アップグレードとメンテナンスのために2013年に大型ハドロン・コライダーが2年間シャットダウンするまで、Schaackは作業したプロジェクトでした。

衝突者の中では、2本の梁は光速に近いところで27kmのリングの周りを反対方向に進む。各ビームには最大476束の100億個の陽子が含まれ、50ナノ秒ごとに衝突が発生します。 Higgsボゾン粒子は、2012年のAtlasとCMS実験で発見されました.LHCbは、物質と物質との間の非対称性を見るように設計されています。

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

Schaackは現在、B中間子からサブ粒子へのまれな崩壊でCERNで採用したのと同じNeuroBayesアルゴリズムを使用して、小売業者から製造業者に至るまでの事業に取り組んでいます。

私の問題は非常に有益だった。私の信号は非常に小さかった。私はわずか70イベントだった。バックグラウンドは数千万のイベントだった。アルゴリズムは、正しい信号を予測する上で非常に正確でした」と彼は言いました。

データ科学者は最も需要の多い技術者です.CIOは、最良の候補者がどこにあるのか、どのように使用するのかを明らかにします。

NeuroBayesアルゴリズムは、Blue Yonderの創設者であり、CERNにも勤務していたMichael Feindt教授のチーフ・サイエンス・アドバイザーであるProfessor Michael Feindtによって開発されました。アルゴリズムは履歴データを使用してイベントを予測し、個々の発生の確率分布を生成します。

「あなたが[NeuroBayes]に入れたものは通常数量であり、それが物理量であろうとビジネス上の価値であろうと、そのようなアルゴリズムには関係しません」とSchaack氏は述べています。

“出力は同じです – 通常は確率です。科学では、探している粒子の崩壊である可能性があります。ビジネスでは、顧客が費やす可能性が高いかどうかの確率です。

基本的なアルゴリズムは同じかもしれませんが、Schaackは理論モデルではなく現実のデータを使用し、プロジェクトが概念証明から数ヶ月で生産に移行できるビジネス環境のペースを、アカデミアをレビューしました。

しかし、ビジネスで予測分析をしようとすると人々が依然として不安定になっている領域の1つに、データ量と品質があります。これは大型ハドロンコライダーの問題ではなく、約30ペタバイトのデータを毎年生成します。

「私たちはモデルを訓練しようとするには、過去のデータが必要です。将来、特定のデータを取ったり、1ヶ月間のデータを取ったり、データを適切に取っていたかもしれませんが、私たちは通常、季節の影響を取り込む必要があるため、問題があります。したがって、少なくとも2年のデータが必要です」と彼は言いました。

Darktrace技術ディレクター、Dave Palmer氏によれば、機密データへのルートが増えているため、コンピュータ犯罪者の潜在的ターゲットのプールが広がり、IT専門知識を持つ人さえも奪取されています。

私たちが働く方法は、私たちが真実を知っている歴史的なデータでモデルを相互検証することです。データポイントが十分でない場合は、データモデルを正確にトレーニングすることができず、将来のイベントを予測できません。

もう一つの問題は、予測不可能な詳細レベルでの予測を望む人々です。

「1日の予測が必要なのかもしれませんが、毎週数回の販売しかしていないので、フィット感が実際にはなく、データポイントの数が少なすぎるため、少し無意味です」 Schaackは言った。

2番目の大きな要因は、データ品質です。そこでは、可能な限り多くの量的および分類されたデータポイントが必要です。

「しかし、人間のテキストや感情分析が必要になるとすぐに、その正確さは数値ほど良くはありません。

予測分析に関するよくある誤解は、遠隔イベントに関する正確な予測を行う可能性です。

研究者によれば、労働者の性格と仕事の要求との間の不一致がデータ科学者に問題を引き起こしている。

「人々は、それらを実際に長期予測することが可能でなければならないと考えています。将来的に予測するのは9ヶ月または12ヶ月ですが、そのような予測は可能ですが、不確実性があります。それが大きくなる “と彼は言った。

クリスマスの3つの季節が記録されているかどうか、クリスマス前の1ヵ月かどうか、信頼性の高い予測について話すことができます。

このような誤解のおかげで、新しいビジネスプロジェクトの開始時に行われた1日または2日のワークショップが特に重要になります。

「特定の企業で数年間働いているため、他の組織よりも優れたデータを知っているので、ドメイン知識があり、実現していない可能性もあります。

「この相互作用は非常に重要です。最初はすべてのデータプロジェクトが必ずしも私たちに適しているわけではないので、良いユースケースを特定しようとしています。

予測分析プロジェクトの潜在的価値が確認されると、作業は概念実証段階に移行し、最終的にBlue Yonderの技術の正確性を実証し、自信をつくるために顧客の既存の方法を盲検する。

「ほとんどの場合、人々は何かをする必要があると分かっており、それがまだ何かを知りませんが、かなりのデータがあります。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実を自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任