鶴岡 慶雅/TSURUOKA Yoshimasa

鶴岡 慶雅 准教授

【研究分野】
メディア・知能・計算分野
【研究領域】
自然言語処理、ゲームAI
【研究室URL】
http://www.logos.ic.i.u-tokyo.ac.jp/wiki-ja/

研究内容

人間は、日常生活の中で日本語や英語といった自然言語をごく当たり前のように使っていますが、コンピュータにそれと同じようなことをさせるのは容易ではありません。これまで、世界中で多くの研究者が半世紀以上にわたって研究を積み重ねてきましたが、言葉の「意味」をコンピュータ上でどのように表現するべきかといった基本的な問題さえまだ手探りの状態です。我々は、自然言語処理と呼ばれる研究分野を中心にして、コンピュータで自然言語を自由に扱えるようにするための様々な技術を研究しています。

基盤的な言語解析技術

自然言語で書かれた文の意味をコンピュータが正しく解釈するためには、まずは文の構造や単語の意味といったものを正確に解析できる必要があります。個々の文の比較的表面的な意味を解析するだけでも、形態素解析、品詞タグ付け、語義曖昧性解消、固有表現認識、構文解析など、様々な処理が必要になりますが(図1)、このような基本的な解析処理の精度を向上させることは、自然言語処理研究における最も重要な課題のひとつです。現在では、解析結果の「正解」が付与されたデータから、解析のためのモデルを「学習」するという、機械学習をベースにした手法が主流となっており、それぞれのタスクに応じた適切な数理モデルやアルゴリズムを開発することで、現実的な計算量で可能な限り高い精度を達成することを目指します。

自然言語処理技術の応用

自然言語処理技術は、機械翻訳、仮名漢字変換、文書要約システムなどの様々なアプリケーションを通して実用化されていますが、我々が取り組んでいる応用のひとつにテキストからの情報抽出があります。一般に自然言語処理といった場合、解析の対象はひとつの文や文章となることが多いですが、情報の種類によっては、大量のテキスト全体を解析することによってはじめて見えてくる有用な情報もあります。ユーザーの要求に応じて、そのような情報を適切に抽出・要約するための技術はテキストマイニングと呼ばれ、自然言語処理技術の重要なアプリケーションのひとつになっています。たとえば、生命科学の分野では毎月何万本という論文が発表されますが、その中から、遺伝子と病気の関係や、タンパク質間の相互作用に関する情報などを自動的に抽出・要約するシステムは、生命科学の研究における重要なツールのひとつです(図2)。

その他の知的処理

当研究室では、自然言語処理に関係する研究を基本テーマとしていますが、それ以外のコンピュータによる知的処理への挑戦も歓迎しています。いわゆる人工知能と呼ばれる研究分野には、表面上異なる問題がたくさんありますが、共通のアルゴリズムや数理的アプローチでそれらを解くことができる場面も数多くあります。たとえば、コンピュータ将棋の評価関数の学習と自然言語処理の構文解析器の学習は、かなり似たアルゴリズムで行うことができます(図3)。自然言語処理に関するトピック以外でも、自分が挑戦したい研究テーマがあれば積極的に提案してください。

学生へのメッセージ

大学院は、研究成果をあげることを求められる場所ではありますが、それと同時に、多くの人にとっては、自分の能力やスキルを伸ばすことにまとまった時間を投資できる最後の時期でもあります。研究生活を楽しみながら、周りの環境を最大限活用して、将来の自分のために必要な知識やスキルを貪欲に吸収していってください。

図1:固有表現認識と構文解析
図2:テキストマイニングシステムFACTA+
図3:先読みを利用したパーセプトロン学習