産業技術総合研究所、情報処理研究部門は、世界で初めて、コンピュータによる音声認識に、断片だけ話せば入力できる補完機能を導入した。
この「音声補完」機能によって、音声入力インタフェースがより自然で使いやすくなり、その普及が促進されると期待される。
また、今回の研究成果については、10月3日〜5日東京ファッションタウンにおいて開催される「RWC2001最終成果展示発表会」や、10月18日同研究所つくばセンターにおいて開催される「産総研情報処理研究部門オープンハウス」にてデモンストレーションをおこなう予定。
従来の問題点として、これまでの音声入力は話しかけにくいということがあった。現在の音声入力の多くは、ユーザにすべての音を最初から最後まで丁寧に発声することを暗黙の内に強いているという。
そのため、ユーザにとって、心理的抵抗が大きく、話しかけにくいという問題点があった。音声は人間にとって最も重要なコミュニケーション手段で、人間とコンピュータとのインタフェースにおいても大きな役割を果たすことが期待されているにも関わらず、限定的にしか用いられていなかった。
同研究部門では、この問題点を解決し、話しかけやすい音声入力を実現するために、ユーザがある単語を一部しか思い出せずに断片だけを発声しても、音声入力システム側がその残りを補って入力することを可能にする補完機能「音声補完」を、世界で初めて、音声入力インタフェースに導入した。
例えば、人間同士の対話では、「音声補完」という語の後半を思い出せずに「おんせいー…」と困って言い淀むと、相手が「音声…補完?」と手助けしてくれることがあるが、本研究では、この相手の役割をシステム側に担わせることで、快適な音声入力を実現した。
これまで、「音声補完」のように言い淀みを音声入力で積極的に活用する発想はなく、音声入力インタフェース研究の新たな展開に道をひらくもの。これは、多様な音声入力応用システムに適用できる基本的なアイデアで、今後、音声入力システムを構築する上での不可欠な機能の1つになることが予想される。
|