RevComm(レブコム、東京都渋谷区)は、同社で研究開発を担うレブコム・リサーチ(RCR)の論文「大規模言語モデルを活用した音声への感情のアノテーション」が、音声・音響信号処理分野の世界最大規模の国際学会「ICASSP 2024」(4月14~19日、韓国・ソウル)で採択された、と発表した。
通常、感情情報を「アノテーション(注釈を付与)」するには、人手によって音声を聞き、感情を特定してタグ付けしなければならない。多大なコストがかかり、大規模な感情情報付きの音声データを作成するのは非常に困難だ。
RCRの研究は、音声書き起こしと音声的特徴を基に感情を大規模言語モデルを活用して自動的に付与する手法を提案している。RCRが行った実験で、大規模言語モデルは、人手と同程度の精度で感情を推定することができたという。
今回の成果によって、大規模な音声感情データの作成が容易になり、さらに高精度の音声感情認識器の開発が期待される、としている。