主な研究内容

超大規模データ時代のための先進的データベースコア技術の研究

超大規模データ時代に向けて、かつてない高速性、省エネルギー性等を可能とする新たなデータベースコア技術の創出に取り組んでいます。データベースシステム、ストレージシステム、オペレーティングシステム等のシステムソフトウェアを中心に据えつつ、先進的な応用ソフトウェアとの融合にも挑戦しています。近年は、新型ソフトウェア実行原理に基づく超高速データベースエンジンの開発に成功しました。当該データベースエンジンは、徐々に社会の様々な場に於ける実用化が進んでいます。
Database ja Machine

超大規模サイバー空間・実世界データのインタラクティブ解析システム

ウェブ・ソーシャルメディア等のサイバー空間と実世界は密接に連動しており、サイバー空間と実世界センサデータの融合解析による社会課題解決を目標とした研究を推進しています。1999年から継続的に日本語ウェブページを大規模収集し、数百億URL、数十億ブログ記事、Twitterの数百億つぶやき等を含む ウェブアーカイブを構築するとともに、ドライブレコーダデータ、交通トラフィックデータ、気象データ等の実世界データの収集・蓄積を行い、その構造、内容、時間変化等を解析するシステムを開発中です。膨大なサイバー空間・実世界データを、データマイニング、機械学習、リンク解析、自然言語処理、画像処理等を用いて解析し、様々な切り口で探索可能な可視化システムを大規模ディスプレイウォール上に実装しています。
Visualization1 Visualization2

自然言語処理・計算言語学: 言葉を速く、正しく「計算」する技術で人のこころと社会の動きを読み解く

人は言葉をもって思考し、実社会での体験を記述し、他人に伝達することができます。我々はではこのような言葉を、コンピュータを用いて、速く、正しく「計算」する工学的研究(自然言語処理)に取り組んでいます。これらの技術の追求が、言語の仕組みに迫る理学的研究(計算言語学)や人間の知能の働きの解明にも繋がると考えています。近年では、ソーシャルメディアとスマートフォンの普及により個人の体験や意見がソーシャルビッグデータとして蓄積されるようになりました。そこで、この膨大な言語データを計算機で深く言語解析して、社会の動きを読み解くシステムを構築しています。また、言葉を介した情報伝達を促進する技術の開発や、言葉からその人のこころの理解を目指す研究も進めています。

基礎解析については、実際に解析が求められるテキストの性質を意識して、解析精度だけでなく、空間使用率や解析速度などの計算コスト、ユーザによる介入容易性など、多様な観点から実用性の高い「使いものになる」言語処理技術を研究しています。また、超大規模多言語テキストと(非言語)センサデータを融合的に利活用する新しい研究課題に取り組み、使えるものはなんでも使う(言語のみに不自然に固執しない)目的志向で分野横断的な言語処理技術を研究しています。

  • 語彙切替に基づく機械翻訳のための単純で効率的なドメイン適応 (EMNLP 2020, Findngs)
  • 単語の生成過程を考慮した未知語の埋め込みの頑健な推定手法 (EMNLP 2020, Findngs)
  • 応答多様性を考慮した雑談対話システムの自動評価手法 (ACL 2020 SRW) [論文]
  • 任意の言語・タスクに適用可能な高精度のタスク特化多言語モデル (CoNLL 2019) [論文]
  • ニューラル機械翻訳の長文性能の分析とその改善 (CoNLL 2019) [論文]
  • マイクロブログからの新規エンティティの早期発見 (IJCAI 2019) [論文]
  • 未知の語句を対象としたニューラル説明文生成 (NAACL 2019) [論文]
  • 人の言語使用における単語の意味の揺らぎのモデル化 (NAACL 2019, short)[論文]
  • 言語の構造を捉えた高精度のニューラル機械翻訳モデル (ACL 2017) [論文]
  • 発話状況を考慮した「空気を読む」ニューラル対話エージェント (ACL 2017 SRW) [論文]
  • ソーシャルメディアからの大衆の価値観の獲得 (IJCAI 2016) [論文]
  • ことばの意味の数理的表現とその翻訳 (CoNLL 2015, short) [論文]
  • テキストの流量の変化に応じて自動的に加速する言語解析技術 (COLING 2014) [論文]
  • 聞き手に喚起される感情を考慮した人間らしい対話エージェント (ACL 2013) [論文]
  • 時系列テキストから獲得した世界知識とその集積 (EMNLP 2012) [論文]
  • ソーシャルメディアのテキスト解析とその可視化に基づく社会分析 (PacificVis 2012, IUI 2016, PacificVis 2018) [論文] [デモ]
Nlp1 Nlp2

ペタバイト級地球環境情報融合システム

多種多様かつ膨大な地球観測データを統合・解析することにより、科学的・社会的に有用な情報に変換するアプリケーションのためのプラットフォームの構築を進めています。 大規模データアーカイブ、メタデータ管理、高性能データ解析処理、ビジュアライゼーション等に関する技術の研究開発に加え、長期的安定的なシステム運用、国際的な地球環境ポータルの構築にも取り組んでいます。 堅牢なデータベースと巨大な解析空間を有し、多分野からの莫大な量の地球環境データが蓄積されているだけでなく、さまざまなデータ処理・解析ツールも用意された統合的データ基盤を目指しています。
Server