主な研究内容

超大規模データ時代のための先進的データベースコア技術の研究

超大規模データ時代に向けて、かつてない高速性、省エネルギー性等を可能とする新たなデータベースコア技術の創出に取り組んでいます。データベースシステム、ストレージシステム、オペレーティングシステム等のシステムソフトウェアを中心に据えつつ、先進的な応用ソフトウェアとの融合にも挑戦しています。近年は、新型ソフトウェア実行原理に基づく超高速データベースエンジンの開発に成功しました。当該データベースエンジンは、徐々に社会の様々な場に於ける実用化が進んでいます。
Database ja Machine

超大規模サイバー空間・実世界データのインタラクティブ解析システム

ウェブ・ソーシャルメディア等のサイバー空間と実世界は密接に連動しており、サイバー空間と実世界センサデータの融合解析による社会課題解決を目標とした研究を推進しています。1999年から継続的に日本語ウェブページを大規模収集し、数百億URL、数十億ブログ記事、Twitterの数百億つぶやき等を含む ウェブアーカイブを構築するとともに、ドライブレコーダデータ、交通トラフィックデータ、気象データ等の実世界データの収集・蓄積を行い、その構造、内容、時間変化等を解析するシステムを開発中です。膨大なサイバー空間・実世界データを、データマイニング、機械学習、リンク解析、自然言語処理、画像処理等を用いて解析し、様々な切り口で探索可能な可視化システムを大規模ディスプレイウォール上に実装しています。
Visualization1 Visualization2

実世界テキストを対象とした自然言語処理・計算言語学

自然言語処理を基礎とし、言語を介した情報の利活用に関する研究を行っています。具体的には、計算機を用いてテキストを高速かつ高精度で読み解く基礎解析技術を研究し、大規模・多様化する実世界テキストから実社会の動きを読むシステムを構築すると共に、人々の間の情報共有を促進する機械翻訳や対話システムの研究を進めています。

基礎解析については、実際に解析が求められるテキストの性質を意識して、解析精度だけでなく、空間使用率や解析速度などの計算コスト、ユーザによる介入容易性など、多様な観点から実用性の高い「使いものになる」言語処理技術を研究しています。また、超大規模の実世界テキストと(非言語)センサデータを融合的に利活用する新しい研究課題に取り組み、使えるものはなんでも使う(言語のみに不自然に固執しない)目的志向で分野横断的な言語処理技術を研究しています。

  • 言語の構造を捉えた高精度のニューラル機械翻訳モデル (ACL 2017) [論文]
  • 発話状況を考慮した「空気を読む」ニューラル対話エージェント (ACL 2017 SRW) [論文]
  • ソーシャルメディアからの大衆の価値観の獲得 (IJCAI 2016) [論文]
  • ことばの意味の数理的表現とその翻訳 (CoNLL 2015) [論文]
  • テキストの流量の変化に応じて自動的に加速する言語解析技術 (COLING 2014) [論文]
  • 聞き手に喚起される感情を考慮した人間らしい対話エージェント (ACL 2013) [論文]
  • 時系列テキストから獲得した世界知識とその集積 (EMNLP 2012) [論文]
  • ソーシャルメディアのテキスト解析とその可視化に基づく社会分析 (PacificVis 2012, IUI 2016) [論文]
Nlp1 Nlp2

ペタバイト級地球環境情報融合システム

多種多様かつ膨大な地球観測データを統合・解析することにより、科学的・社会的に有用な情報に変換するアプリケーションのためのプラットフォームの構築を進めています。 大規模データアーカイブ、メタデータ管理、高性能データ解析処理、ビジュアライゼーション等に関する技術の研究開発に加え、長期的安定的なシステム運用、国際的な地球環境ポータルの構築にも取り組んでいます。 堅牢なデータベースと巨大な解析空間を有し、多分野からの莫大な量の地球環境データが蓄積されているだけでなく、さまざまなデータ処理・解析ツールも用意された統合的データ基盤を目指しています。
Server