人の声と音声合成 - 株式会社アニモ

人の読み上げと音声合成とでは、それぞれどんな良さがあるのか知るために、以下の音声を用意してみました。
まずは聞いてみてください。

・人の声

人の声の方は、常に雑音が入っています。また、今回は幸い遭遇しなかったのですが、収録中にインターホンなどの音が発生したら、それも入ってしまいます。これらの問題を避けるには、機材と防音環境に優れたスタジオを利用する必要があります。

人は噛むことがあります。今回は一発録りで済ませましたが、転んでいるところがありました（20秒あたりの「ところどころ」）。また、母国語であっても、きちんと発音してマイクに乗せることは、思いのほか難しいようです。例えば、私は「つ」がうまく言えていないと感じました。これらの問題は、プロのナレーターなら改善が見込めます。

以上のことから、人の声の収録は、手軽ではないことを実感しました。これは、文面の手直しが難しいことにもつながります。録りなおすときに、以前の収録と同様の声を再現することも難しいです。

そして、手軽さにおいてアドバンテージがあるのが、音声合成です。
声を出す必要がなく、周りの音を拾うおそれもないので、人が大勢いる会社の自席などでも気兼ねなく音声を作れます。
また、声の技術がない素人でも、文字を入力するだけで、明瞭で安定した音声を作れます。

一方、人の声のよいところは、文脈に応じた声の変化が自然に入ることだと思いました。
ていねいに伝えるべきところで抑揚に変化をつけたり、間を長めに取ったりすることを、自然に行っていました。そしてそれによって、聞くときに文章の大意をつかみやすくなると感じました。

音声合成と人の声の、それぞれのよさを感じ取りながら、双方に触れたいと思います。

(祐)