Big Data向けデータベースをオープンソースでリリースしたGemini


 Geminiも、2001年に創業したベンチャー企業です。主に携帯通信事業者向けのメッセージング・システムのソフトウェアを開発・提供しています。Emailアドレスだけではなく携帯電話番号をアドレスとして文字といっしょに写メールやデコメールといったマルチメディアを送受信できる国際標準のメッセージング・システムMMS(Multimedia Messaging System)に対応した弊社の製品は、数千万人の利用者をもつ携帯通信事業者に利用されています。最近では、数百万人のお客様にGB(ギガバイト)のメールボックスを無料で提供するWebメールサービスのためのシステムを納入しました。これらは、携帯電話メールやインターネットが必ずBig Dataを生み出すことを見越し、創業以来一貫して取り組んできた技術開発の成果です。

 そんなベンチャー企業のGeminiが提供するBig Data向けの技術は、日本の先端的な技術者から高い関心を集めています。去る11月1日、Geminiは日本初、世界でも総称としては最大規模の「NOSQL AFTERNOON IN JAPAN」という会議を多くの支援者とともに開催しましたが、募集開始わずか数時間で200名を超える申し込みがあり、定員を増加して400名近くの出席者が集まる会議となりました(図2)。「NOSQL」とは、Not Only SQLの略称で、「Big Dataの処理には、伝統的に利用されているリレーショナル・データベース管理システム(RDBMS)におけるデータベース言語のSQL(エスキューエルもしくはシークェル)に留まらずに、新しいデータベースやデータ処理技術を駆使する必要がある」という意味合いで使われています。

(図2)

会場風景
プログラム

去る11月1日に開催した日本初、世界でも総称としては最大規模の「NOSQL AFTERNOON IN JAPAN」の会場風景とプログラム

 Geminiがこの会議を開催するに至ったのは、本年7月、「Hibari」(ヒバリ、雲雀)というBig DataのためのNOSQL対応データベースをオープンソースとしてリリースしたことがきっかけでした。ワールドワイドでは、Google、Amazon、Facebook、LinkedIn、Twitterなどを始め、大量の利用者を抱えるWebサービスですが、すでにNOSQLを指向する「Hibari」と同じようなアーキテクチャのBig Data向け技術を利用しています。なかでもYahooやTwitterが利用している 「Hadoop」(ハドゥープ)、Facebookが開発した「Cassandra」(カサンドラ)といったオープンソースのプロジェクトは著名で、バージョンアップも活発に行われています()。

表 主要なNOSQLオープンソースプロジェクト

NOSQL
オープンソース
プロジェクト
代表的な
サポート企業
主な特徴
Hadoop/HBase Cloudera Hadoopは、2006年にGoogleが発表したGoogle's BigTableという論文に触発されオープンソースとして開発されたフレームワーク。Yahooをはじめ多くの利用者がいる。日本においてもNTTデータがClouderaとの提携を発表。HBaseはHadoopを利用するデータベース。
Cassandra DataStax
(旧Riptano)
Cassandraは、5億人が利用すると言われるFacebookがInbox searchのために開発し、オープンソースとしてリリースされた。GoogleのBigTableと2007年に論文が発表されたAmazonのDynamo双方の利点を併せ持つ。
MongoDB 10gen MongoDBは、NOSQLのなかでドキュメント指向型のデータベースに分類されるオープンソースであり、スキーマというデータベース構造を持たず(スキーマレス)、データベース構造の変更に柔軟に対応できるという特徴を持つ。
Hibari Gemini Mobile
Technologies
Hibariは、既に商用化されている中国の大手携帯通信事業者のSNS、日本の大手ポータルと携帯通信事業者が提供するWebメールサービスにおいて利用されているNOSQLデータベース。2010年7月にオープンソースとしてリリースされた。


 このオープンソース人気は、VC(ベンチャー・キャピタル)の動向からも明らかです。この10月末には、数か月前にスタートアップしたベンチャー企業でありCassandraの支援サービスを提供するDataStax社(旧Riptano)が、NY Times誌にシリコンバレーでもっとも影響のあるVCと称されたSequoia Capital社から2.7 Millionドルの投資を受けました。また、Hadoopの支援サービスを提供するCloudera社(クラウデラ)も、先日25 Millionドルの追加投資を発表しています。先の「Hadoop World 2010」に登壇した発表者達は揃って、「We are hiring(人材募集中)」とプレゼンテーションを締めくくったそうですから、活況のほどがうかがわれます。

使いこなせば、Big Dataは“宝の山”となる


 一方でBig Dataは、それ自体が巨大なデータの蓄積であり、これをデータ資産として分析対象にしたり、私たちの目に見える形に整理し、マーケティングなどに活用することにより、大きな“宝の山”に変えていくことが可能である点にも触れておきましょう。具体的には、以下に挙げた4つのシーンで大きな価値が生みだされると期待されています。

(1)広告媒体としての価値
登録者や加入者が膨大なため、広告媒体として有力。登録者の属性情報をきめ細かく蓄積できるほか、履歴も蓄積することで行動予測などによるマーケティングへの応用も期待できます。

(2)分析対象としての価値
巨大なデータウエアハウスとして、属性情報や購買履歴、ログなどを一括管理することで、顧客の嗜好にマッチした商品を推薦(リコメンデーション)することはもちろん、潜在的なニーズを掘り起こすデータマイニングなどへの応用が見込まれます。ビジネスインテリジェンス(BI)の視点からも、大きな価値を産むことは間違いありません。

(3)リアルタイム検索の対象としての価値
TwitterはBig DataとなったTweetsのリアルタイム検索のアクセス権をGoogleなどに販売し始めています。また、5億人以上の利用者がおり、1日あたり80から90TBのBig Dataを処理するFacebookでは、その是非はともかく、APIを利用しているアプリ開発者が、利用者データをブローカーに販売していたことを認めたという記事も報道されています。

(4)与信や不正防止のためのデータとしての価値
金融ビジネス、たとえばクレジットカードの与信などにおいて蓄積されるBig Dataは、利益に直結するデータだと言われています。現状、取引に関して多くのデータを収集しても、処理に何日もかかる、またはデータのフォーマットがフィットしないなどの理由で、実は多くのデータが捨てられたり、サーバーの奥に眠ってしまっています。金融機関がこのBig Dataを効率的に活用することで、不正利用や不良債権を減らして回収率を高めた利益改善事例は、すでに幾度となく紹介されています。

4回にわたりBig Dataへの対応策を解説していきます


 以上のようにBig Dataは、これからのモバイルクラウドやWebサービスが伸びていくうえで避けては通れない課題であり、またデータそのものは大きな利用価値を有しているということがお分かりいただけたと思います。特に前者では、オープンソースの技術や製品を駆使したBig Data対応のソリューションが活躍の場を広げており、Geminiも「Hibari」に留まらず、NOSQL全体の市場と技術の発展に貢献していきたいと考えています。

 次回からは、モバイルクラウドやWebサービスを展開しようとする事業者の方々に向けて、Big Dataへの対応策を4回にわたり解説していきたいと考えています。これまでGeminiが携帯通信業界やメッセージングという分野で培ってきたBig Dataへの経験と、「Hibari」を核とするデータベースソリューションをベースとして、分かり易い解説を試みる予定です。どうかご期待ください。

(2010年11月16日掲載)

前ページへ12連載目次へ
page top