齋藤 大輔/SAITO Daisuke

齋藤 大輔 講師

【研究分野】
メディア・知能・計算分野
【研究領域】
音声情報処理、マルチメディア情報処理
【研究室URL】
http://www.gavo.t.u-tokyo.ac.jp/

研究内容

齋藤研究室では、音声に関する情報処理についてその要素技術の発展・高精度化・応用を進めるとともに、それを軸としたマルチメディア情報処理について研究を行っています。音声は人間にとって最も基本的なコミュニケーション手段の一つであり、近年ではマンマシンインターフェースとしても様々なサービスで用いられるようになってきました。しかし、音声はもっとも基本的なメディアであるだけに人間の要求水準も高く、音声メディア情報処理の自然性(如何に人間らしいか)をより向上させることが求められています。研究室では、そのための要素技術の提案・開発を行うと共に、そこで培われた技術を音声以外のメディアに積極的に応用していく事を検討しています。なお本研究室は峯松研究室と密接に連携して研究を進めています。以下は研究テーマの一例ですが、学生からの新しいテーマ提案も歓迎しています。

高精度で柔軟な音声合成・声質変換技術

Webに代表されるような大規模なメディアデータが世にあふれており、これらを用いた音声技術は今後より重要になってきます。しかしデータが大規模になったとしても、より柔軟に所望の音声の合成を実現するためには、話者性、言語性といった着目する情報を適切に抽出し、因子化したうえで、再構成する枠組みが必要となります。研究室では特に言語性を保持したうえで、話者の情報や発話スタイルを操作する統計的声質変換に着目し研究を進めています。Noisy Channel Model と呼ばれる確率的枠組み、テンソル解析・行列変量に基づく特徴量表現を用いた話者性制御、カーネル表現を用いた言語情報の記述、新しい深層学習モデルの導入など、確率的・数理的モデルを背景とした拡張性の高い音声合成・音声情報処理技術の構築を目指します。その他、韻律制御の確率モデル的取扱いや、歌声や歌詞、文字認識・合成といった他メディアへの音声言語情報処理の応用についても数理モデルによる抽象化を介して検討を進めています。

マルチメディア情報のアラインメント・対応付け

これまでの単一のメディアを用いた情報提示ではなく、音声、映像、行動データなど、あらゆるマルチメディア情報を同時に扱う枠組みが重要になってきています。音声情報処理分野で培われた系列メディアに対する情報処理をその他のメディア情報へと応用するとともに、複数のメディア情報の対応付けを行う研究について検討を行っています。例えば、大規模な料理のレシピデータとユーザの調理行動を、音声対話システムの基礎技術を通して動的に結びつける研究や、エージェントの顔情報と音声情報に齟齬がないように適切な対応付けを行う研究を現在進めています。

学生へのメッセージ

現在、オープンソースソフトウェアの発展に伴って、高度な情報処理技術がどんどんコモディティー化してきています。ある程度単純なやりたいこと・アプリケーションは、大学院で先端的な研究を行わなくても構築可能な時代です。そのような時代背景の中で、大学院で研究を行う意味を改めて考え、十分な価値を見出だし、どんどん新しいことにチャレンジして有意義に過ごしてもらいたいと思います。

図1:テンソル解析を用いた特徴量表現
図2:印象に基づく顔空間・声空間の対応付け写像