峯松 信明/MINEMATSU Nobuaki

峯松 信明 教授

【研究分野】
メディア・知能・計算分野
【研究領域】
音声言語処理、外国語学習支援
【研究室URL】
http://www.gavo.t.u-tokyo.ac.jp/~mine/japanese/index.html

研究内容

峯松研究室では、音声を主たる媒体としたコミュニケーションに関する研究を行なっています。音声は音、即ち、空気粒子の振動現象でしかありません。ですが、この振動現象を鼓膜が捉えると、あら不思議、その振動から様々な情報を人は抽出します。誰が、何を、どのように、喋った・歌ったのか、といった情報を抽出します。日頃、何気なく行なっている空気振動を媒体とした情報抽出・生成、実は、分かっていないことが沢山あります。

チンパンジーとヒトは遺伝子で言えば約1% の違いしかありません。でも霊長類研究者によると「視覚の世界は両者で共通。でも、聴覚の世界は別世界」と言われることがあります。サルとヒトの共通の祖先に対して、どのような情報処理能力が付与されると音声言語や音楽が生まれるのでしょうか? 我々の研究テーマの一つは進化人類学、言語学、脳科学といった情報源を元に「ヒトのみが獲得したであろう空気振動を介した情報伝達・認知能力」を検討し、計算機実装することにあります。こういった基礎研究から、統計学習、機械学習といった計算機の力技を最大限利用した応用研究まで、幅広い活動を行なっています。基礎研究が好きな学生も、応用研究が好きな学生も、各々の興味とやる気に合わせてテーマ設定が可能です。以下に幾つか例を示しましょう。

観測対象に内在する情報の不変的構造表象とその数理的モデリング

環境から受け取る信号(視覚・聴覚・触覚…)は様々な変形を被ります。しかし、我々はこれらの変形前後の刺激に対して同一性を感覚できます(知覚の恒常性)。この問題に対する一般解を数学(位相幾何学・トポロジー)的に導出し、様々なメディア情報処理への応用を検討しています。変形不変の情報表象を峯松研では提案しています。

話者の違い、年齢の違い、環境の違いに頑健な音声認識技術の構築

音声ストリームを対象として不変構造抽出を実装すれば、話者の違いや環境の違いに対して不変な音パターン抽出が可能となります。また、 雑音が混入された音声をクリーン音声に逐一変換しながら認識する頑健な音声認識技術も構築しています。様々な観点・方法論から、環境の違いに頑健な音声認識技術の構築とその応用を検討しています。

幼児の言語獲得シミュレーションとそれに基づく音声合成手法

幼児の言語獲得は親の発声を真似る(音声模倣)ことが基本ですが、この行為、他の霊長類では観測されません。小鳥、クジラ、イルカで観測されるだけです。でも、動物の音声模倣は声帯模写的であって、ヒトとは違います。ヒトの幼児は発話者の体格差を越えた音パターンを抽出し、獲得し、自分の口で再生します。このプロセスを計算機実装しています。

世界中の外国語学習者を対象とした技術的支援

外国語の発音評価も、話者の年齢・性別・体格に影響を受けない技術が必要となります。不変パターン抽出技術は、世界中の方々の英語発音を分類して地図化する、世界英語発音地図構築にも使われています。また、音声合成技術の一部を利用して構築されている、世界中の日本語学習者が愛用しているオンライン日本語アクセント辞書も我々が開発・提供しています。

話者変換/ メディア変換/ 何でもかんでも変換しちゃえ

貴方の声を別話者の声に変換する技術を構築しています。多様なキャラクタ声を出す声優の声を使って、貴方の声を色んなキャラ声に変換します。これらは、声空間と声空間の写像を設計する訳ですが、声空間と手の運動空間の写像を設計すれば、手の運動からダイレクトに声が生成されます。貴方の手に喋らせることだってできてしまいます。

学生へのメッセージ

峯松研は、よく学び、よく語り、よく遊び、よく食い、よく飲む、よく出かける、そういう学生を常に求めています。よく出かける、というのは国内外の学会に参加し、研究成果の発表を行なうことを意図しています。自主的に問うて考え、基盤技術を構築し、最後は社会に貢献する、これが峯松研のモットーです。なお、研究活動には英語の能力も必要です。論文を読んだり、留学生との議論に参加したり、です。研究室見学も随時受け付けています。

図1:音声の分析。音声は空気の振動でしかない。様々な要因によって変形する。
図2:写像・変形不変量 f-divergence とそれを用いた音声の構造的表象
図3:音声アプリケーションの一例“発音クリニック”。どこから直そうか?
図4:最後は実社会に還元する。そう、見たいのはみんなの笑顔である。