音声合成

音声合成

高品質テキスト音声合成

業界最高品質の日本語テキスト音声合成ライブラリ

FineSpeech V3

音声合成FineSpeech(ファインスピーチ)はテキストを音声に変換するシステムです。プロのナレーションに匹敵する品質を実現し、社会・産業のあらゆるシーンで活躍しています。

コールセンターにおける自動音声応答(IVR)、交通や災害の情報を提供するシステム、カーナビゲーションシステム・VICS・DSRC端末の読み上げ機能やエージェント機能、人とロボットの対話システム、携帯電話でのメール読み上げなどで利用されています。また最近、工場や工事現場での組立支援・出荷前検査・車両点検や保線などで音声合成による作業指示で使われはじめています。

さまざまな用途に対応できるように、組み込み型、サーバー型(MRCP)、クラウド型(PaaS/SaaS)など、複数の形態を用意しています。

FineSpeechは、日本ではじめて、「うれしい声」、「悲しい声」、「怒った声」、「冷たい声」などの感情音声、個人の声質を再現する個人音声合成など、高機能でより人間らしい表情豊かな音声読み上げを実現してきました。これからも幅広い分野でご利用いただける先進的な音声合成をめざします。

Animoで買う
Amazonで買う
Yahoo!で買う

デモンストレーション

サンプル音声

FineSpeech V3による高品質音声合成を試聴できます。

8kHz 16kHz 22.05kHz
サンプル1 「朝早く、バンガローに電報が届いた。」 女声 speaker speaker speaker
男声 speaker speaker speaker
サンプル2 「新しいメールが、届いています。」 女声 speaker speaker speaker
男声 speaker speaker speaker
サンプル3 「近畿地方の天気予報です。北部では雪が降り、京阪神でも時々雪の降る可能性があります。」 女声 speaker speaker speaker
男声 speaker speaker speaker

 

特長

FineSpeech V3の特長

超高品質
  • プロのナレーション品質の80%のスコア(※)を実現した、超高品質版を追加。
    (※)音声品質の評価方法であるCMOS評価による
FineSpeech V2の資産を継承
  • API・データ仕様は共通
  • 氏名処理オプション・住所処理オプションを継続利用可能
  • 超高品質版と合わせ、多様な声種。
    • 男性2種/女性3種/子供声1種 計6種 感情合成も。
選べる利用形態
  • クライアント型・サーバー型・SaaS型
約16万語におよぶ単語辞書を標準装備
漢字・仮名・英単語・数字・記号が混じった文章も正確に読み上げます。
ユーザー独自の単語辞書が作成可能
専門用語の読み登録、またアクセント位置のカスタマイズが可能です。
各種韻律を制御可能
スピード、イントネーション、ピッチ、ボリュームなど、細かく制御することができます。
言語処理部分のみの利用も可能
日本語漢字仮名混じり文を表音文字列に変換して出力できます。
感情音声合成を実現
平常+4つの感情(うれしい・悲しい・怒った・冷たい)を表す音声で、表現豊かな音声合成を実現しました。
(FineSpeech V2 オプション)
幅広いプログラミングインターフェースに対応
通常のプレーンテキストからの音声合成だけでなく、SSML (Speech Synthesis Markup Language) を入力とした音声合成にも対応しています。また、SAPI 5.1 (Microsoft Speech API 5.1) から使用することもできます。幅広いアプリケーションからお使いいただけます。
高いマルチスレッド性能(高多重処理)を実現
音声合成の多重処理に最適化したプログラムコードを採用し、安定した音質を維持したまま、高いマルチスレッド性能を実現しました。
テレフォニーサービス、PCアプリケーション用途など柔軟に対応
合成音声のサンプリング周波数は 8kHz,16kHz,22.05kHzに、 出力形式は Linear PCM,mu-law PCMに対応しています。

 

機能

入力されたテキストを正確に読み上げた合成音声データを出力します。

FineSpeechの音声合成処理の流れ
FineSpeechの音声合成処理の流れ

動作環境

OS Windows版 Windows 7 / 8 / 8.1 / 10 (32/64bit)
Windows Server 2008 SP2 (32/64bit) / 2008 R2 (64bit) / 2012 (64bit)
Linux版 Red Hat Enterprise Linux Version 5 / 6 / 7 (32/64bit)
その他 Android 2.1以降
CPU Intel Pentium プロセッサ1GHz以上推奨、または同等性能の互換CPU
Android版はARM(v7-A)プロセッサ1GHz以上推奨
メモリ 2GB以上推奨
HDD インストール領域として約4GB
開発環境 Microsoft VisualStudio 2005以降

 

仕様

単語辞書サイズ ~1.5MB(16.5万語)
波形辞書サイズ 超高品質版:340MB~870MB (声質あたり)
高品質版:15MB~40MB (声質あたり)
サンプリング周波数 8kHz, 16kHz, 22.05kHz
メモリ 1GB以上
出力データ形式 16bit Linear PCM, μ Law PCM

 

オプション

住所処理Optionライブラリ 日本の住所を正しく読み上げるためのライブラリです。郵政公社の住所データに準拠しています。
氏名処理Optionライブラリ 日本人の姓名を正しく読み上げるためのライブラリです。氏名辞書には、約16万の姓名が格納されています。
子供声合成オプション 子供声音声合成を行うためのオプションです。声の種類は6歳の男の子です。(FineSpeech Ver.2)
感情合成オプション 『うれしい声』、『悲しい声』、『怒った声』、『冷たい声』の4種類の感情表現した音声での読み上げ機能を提供します。(FineSpeech V2)
個人音声合成 <関連製品> 咽頭摘出などによって発声機能が損なわれる方向けに、手術前に音声を収録し、 PDA上で ご本人の音声によって、自由会話文を読み上げることのできる音声合成を製作するサービスです。
個人音声合成のページをご覧ください。

 

製品体系・価格

製品名称 価格
FineSpeech V3 SDK PC版 400,000円+消費税
Animoで買う
Amazonで買う
Yahoo!で買う
住所処理Optionライブラリ 94,800円+消費税
Animoで買う
Amazonで買う
Yahoo!で買う
氏名処理Optionライブラリ 94,800円+消費税
Animoで買う
Amazonで買う
Yahoo!で買う
FineSpeech SDK V2.1 感情合成オプション 100,000円+消費税
Animoで買う
Amazonで買う
Yahoo!で買う
FineSpeech SDK V2.1 子供声合成オプション 100,000円+消費税
Animoで買う
Amazonで買う
Yahoo!で買う
FineSpeechで作成された合成音声ファイルをご利用になられる場合や、FineSpeechのライブラリおよび辞書類を、システムやアプリケーションに組み込んでご利用になる場合は、別途ご契約手続きならびにライセンス料金が必要となります。ライセンス料金につきましては個別にお問合わせ願います。

 

導入事例

カーナビゲーションでの音声読み上げ
高品質な合成音声で迷うことなく目的地までナビゲート
音声作業指示による超精密装置の組立支援
アイズフリー・ハンズフリーによる組み立て時間ロスと手順漏れの防止
音声作業指示による出荷前検査の効率化
同期した音声作業指示で、複数人の協調作業を効率化
音声作業指示による車両定期検査
雑音に強い音声認識と音声合成で、作業漏れを防止し、作業員の安全を確保
保線システムおける音声自動応答案内
高品質な合成音声で作業案内を実施
防災情報・災害情報
防災放送の高度化・高品質化
道路交通情報をハイウェイラジオで配信
最新の道路交通情報をドライバーに配信