ロゴ

データレイク ― GEとPivotalがつくる、ビッグデータ分析の新しいカタチ

GEと米Pivotal(EMC社とVM Ware社が共同設立したクラウド型のビッグデータ分析会社)は先週、初の産業用のデータ格納アーキテクチャ、「データレイク」を本格展開することを発表しました。「データレイク」によって、インダストリアル・インターネットに繋がった航空機エンジンや発電機などのハードウェアから収集する膨大な情報を格納・管理し、さらにそこから得られるインサイト(洞察)収集が容易に。

たとえば航空分野で既に300万回分を超えるフライトを追跡し、340TB(テラバイト)分のフライトデータを格納する産業用データレイクの例では、データ・ウェアハウス型の従来手法に比べ、分析処理速度を2,000倍も向上させ、分析コストは10分の1に削減します。このパワフルな手法を用いれば、従来なら1カ月かかっていた複雑なタスクもわずか20分で高速処理することが可能に。

「ビッグデータは急速に拡大しています。もはや既存ツールの処理能力では追いつかず、せっかくのビッグデータを十分に活用することができないのです」・・・とは、GEソフトウェアの責任者、ビル・ルーのコメント。コンピュータ・サイエンティストでGEアビエーションのチーフ・テクノロジー・オフィサー、デイブ・バートレットは「産業用データレイクは企業にとって将来の課題を予測し、機器や設備をより効率的・持続的かつ高収益なかたちで運用するのに有用」だと言います。また、インフラ機器メーカーであるGEがお客さまに提供する保守サービスを向上させるうえでも有益です。「ビッグデータを活用することで、お客さまの資産の耐用年数を最大限に延ばすことができるんです」

産業用データレイクは航空機エンジンや機関車から医療用スキャナーに至るまで
あらゆる産業の様々なハードウェアの用途に適用可能

バートレット曰く、データレイクとは、まるで激流の川の水も支流の水もすべて、データ形式を問わず飲み込んで貯めておけるような広大な領域。これは、データ格納時点に分類や体系化を必要とする標準的なデータ・ウェアハウスとは異なります。「データを分割・分断・分類する代わりに、当該データが何であるかを示すメタデータ(上位の見出しのようなもの)を取り込むんですよ。このメタデータが、従来のデータ格納手法では取りこぼされてしまっていた、分類不能で多様性あるコンテキストを分析時に提供してくれるんです」

コンピューターサイエンスの世界に飛び込むまでは、生物学と生態系を研究していたバートレット。彼はデータレイクのコンセプトについて、生物学的な比喩を交えてこう説明します。「データレイクは森の中の池のようなもので、多様な生態系の宝庫みたいなものなんです。藻や植物から頂点の肉食動物まで、何百万種もの生物で構成された複雑な食物網がある、といった具合です。水深や利用可能な酸素の量、栄養水準、気温、塩分濃度、流入量・・・というようなほかの要素が、複雑に相互連関している生態系を構成しているようにね。さあ、ここで魚釣りをすると、どうだろう?何が釣れるかまったく分からない!釣りを楽しむにはうってつけの場所さ(笑)質問や分析をして様々なことを導き出す機会が、ほぼ無限に存在しているんだからね」

「一方で、従来型のデータベースに近ければ近いほど、そのデータベースは養魚場に似たものになるわけです。すべての生物種は事前に分類され、同じエサや健康補助食品を与えられている、といった具合にね。生物学的安全確保の対策をとる集約的な水槽もアリだけど、開かれた豊かな自然の生態系とはやっぱり大きく違う。ここで魚釣りをすると?・・・そう。何が釣れるかほぼ察しが付いてしまう。便利だけれども、そこから学べることは非常に限られているんです」

GEとPIVOTAL社による データレイク を用いた分析
処理速度は2,000倍
コストは10分の1

すでに25の航空会社が、彼らが所有する航空機をよりよく維持・管理するために、GEとPivotal社のデータレイクにデータを送信しています。この強力なシステムによって、整備士はいっそう的確に性能異常分析を行うことが可能に。たとえば航空機エンジンが通常より高温を報告した場合、エンジンの機種や使用年数、整備実績、その他の多くの要素に基づいて、データレイクからインサイトを模索し、即座に過去の類似案件を見つけ出すことができます。「データレイクによって可能になったデータサイエンスと、従来のエンジニアリング的アプローチ。このふたつの結婚が、魔法を起こすような感じかな。想定される 『もし、XXXXXしたら?』 という質問にサクサクとその先を見せられる、まったく新しい世界が始まったんです」

産業用データレイクは、GEの産業用ソフトウェア・プラットフォーム「Predix」や、オープンソースの「Apache Hadoop」のような大規模な並列処理アーキテクチャシステムと連動します。バートレットは、この組み合わせは、航空機エンジン、機関車から医療用スキャナーに至るまで、多くの産業、多くの種類のハードウェアのための膨大な用途に適応可能になると言います。

「データレイクの世界に飛び込むと、質問の仕方さえ分からなかった質問に、目を向け始められるようになりますよ。まさに、ビッグデータの活用によって、ビジネスモデルを大きく変換するチャンスが来ています」