ロゴ

GEのデータ・サイエンティストが語る「アウトカム=成果のためのビッグデータ分析」

ビッグデータ分析、と聞くとありとあらゆるデータを収集し、とてつもないコンピューティング・パワーで総当たりして分析を繰り返す、などと想像して尻込みしてしまうかもしれません。でも、最終的に何を手にしたいのか、という目的がはっきりしていれば、じつはやるべきことはシンプルだと気付くかもしれません。投資コストに見合った成果を手にするため、価値創造のためのビッグデータ分析とは?今回は、GEのデータ・サイエンティストがどのような視点で分析に取り組んでいるかをご紹介します。

ビッグデータは資産?――いえいえ、賢く収集しなければ単なる負債です
2020年までに、500億台ものデバイスが相互にネットワーク接続されるようになると見込まれています。産業スペースでは、天文学的な量のデータが往来することに。しかし、GE Digitalのデータ・サイエンティスト、アレクサンダー・ロスによれば「現状、ちゃんとタグ付けされて利用可能なデータは全体のわずか3%。実際に分析に使われているのは、それよりはるかに少ない」とのこと。ビッグデータという言葉は大きな可能性を漂わせているものの、現状では、データから価値を生み出す機会は限定的にしか存在していません。

アレクサンダー・ロス
GE Digital エグゼクティブ・ディレクター(データ・サイエンティスト)

ビッグデータの定義としてよく言われるのが3V、すなわち、ボリューム(Volume:データ量)、バラエティ(Variety:データの多様性)、ベロシティ(Velocity:発生頻度)。この中で、特にバラエティとベロシティはハードルが高い、とロスは言います。「ボリュームへの対応は“力業”でも何とかなるかもしれません。しかし、バラエティに対応するためには、時系列やデータ属性の違い、履歴/バージョン管理、非構造型データの取扱いなど、多くの点に留意する必要があります。またベロシティについて言えば、データが陳腐化していないか、するとすればいつ頃か、常にトラッキングする必要があります」。たしかに、これらを達成するには高いスキルが求められ、コストも高くつきそうです。調査会社のガートナーは『2018年までに、導入されたデータレイクの90%は利用目的がはっきりしないまま収集された膨大なデータのために、無意味なものになる恐れがある(Gartner Predicts 2015)』とレポートしています。現状では、データ管理コストばかりがかかって何も生み出せていない状況。これでは資産どころか、負債でしかありません。データは、それが情報となり、行動を促すインサイト(知見)となり、さらに実際に利用者の行動にインパクトを与えるものとなる、というステップ経て初めて価値あるものとなります。ロスは「すべての資産にセンサーをつけて、すべてのデータを集めたいというお客様もいます。私は、それは正しいアプローチではありませんよ、とお伝えしています。付加価値が生まれるところでデータをとる方が賢明ですから」と言います。ロス曰く「もっとも考慮すべきはビッグデータの4つめのV、つまりデータがもたらすインパクトを意味するバリュー(Value:価値)」です。データの価値を決定づけるのは、ビジネスの成果(=アウトカム)につながるか否か。ビジネス成果に繋がらないのなら、データ収集も分析も、する意味がありません。システム的に収集・分析可能なデータとビジネス目標への道筋、その接点を見極めることが重要です。

インパクト(利益)をもたらしてくれるデータとは?

インダストリアル・データサイエンス。その、3つの分析手法
データ・サイエンティストは、どのようにビッグデータ分析を行っているのでしょう?以下のような、3つの手法を組み合わせたハイブリッドな分析が有効だ、とロスは言います。第1に、物理およびエンジニアリングベース・モデル。これは物理法則などに基づいて分析を行う伝統的手法で、製造業であれば誰しもその経験が生きる部分。ただし、メンテナンスや変更が困難なので、時間の経過とともに現実にそぐわなくなるおそれがあります。次に、経験則やすでに実証されたルール・知見に基づく分析。これはオペレーションの専門スタッフが経験的に持っているもので、正しいかどうかを感覚的に判断できるというもの。しかしながらそれは属人的だったり、デジタル化されていなかったりするので、転用・応用が利きづらい側面があります。最後に、データドリブン・テクニック。一般的にデータサイエンスといわれている領域で、昨今話題の機械学習やディープラーニングがあげられます。しかし、インダストリアル領域におけるデータがまだ不十分なことや、過去に発生しなかった事象はデータがないため分析できないなどの弱点が。このように、どの手法においてもメリット/デメリットがあるため、3つの手法相互で検証するような、ハイブリッドなアプローチが必要となるわけです。

「何を」「どう」分析すべきか

デジタル・ツイン――“インダストリアル・データサイエンス”のための分析手法
GEでは、展開する製品すべてにおいて、多種多様かつ膨大なデータを蓄積しています。これらを元にして、サイバー上にその製品と全く同じ特性を持つバーチャルな模型(デジタル・ツイン)をつくり、これを動かすことで現実の製品がどのように変化・作動するかをシミュレートする、これがデジタル・ツインによるハイブリッド分析です。

デジタル・ツイン(画像:GE)

従来のコンピューター・シミュレーションでは、入力するパラメータが変化するだけで、分析モデル自体は変化しませんでした。これでは時系列的に変化する現実の状況に対応することはできません。デジタル・ツインは、モデル自体をアップデートする動的な分析。モデル自体の特性変化をダイレクトに反映します。航空機エンジンの例で言えば、砂埃や熱など過酷な環境を飛ぶ飛行機のエンジンは、同じデータを示しても、運用状況が違うので異なる評価をしなくてはなりません。デジタル・ツインを使うことで、「エンジン」といった一般論でなく、「自社が保有するこの航空機のこのエンジン」というように、個体に最適化された分析が可能になるのです。デジタル・ツインは、機器だけでなく、プラント全体、オペレーションの分析など、産業におけるさまざまなシーンに広く応用することが可能で、これらに対応したテンプレートが豊富に用意されており、コスト的にも有益なのが特徴です。

デジタル・ツインの応用例

「どうしたらオペレーションを最適化できるだろうか、どんなデータを集めればよいか、とお悩みの企業も多いでしょう。しかしその答えは、すでにお持ちのデータの中にもきっとありますよ」とロス。データサイエンスにより機会を発見し、実行可能なインサイトを引き出して、ソリューションに発展させ、展開する。PREDIXプラットフォームやデジタル・ツインによるアナリティクスを通じて、GEは企業のビジネス成果にコミットしたサービスを提供していきます。

7月6日に東京で開催した「GE Digital Day 2016」
パネルディスカッションの採録記事をNewsPicksで公開中