用語集
ア行
アクセント(アクセント型)
日本語の基本周波数パターンにおいて、呼気段落の先頭から呼気段落末に向かって緩やかに下降するフレーズ成分と単語、分節を表すアクセント成分があるが、アクセントはアクセント成分によって形成されるイントネーションの基本単位である。日本語(東京方言)のアクセントをモーラ単位で表現したとき、各モーラのピッチの高・低は決まったパターンに従い、それらのパターンを「アクセント型」に分類する。
アクティブノイズキャンセル
ノイズに対して逆位相の信号を別途生成し、信号を重ね合わせることによって能動的にノイズを減衰させる方法。
アナログ
物理的な事象を実数で表すこと。
いびき
睡眠中、軟口蓋などが呼吸に伴って振動するために生ずる音。
イントネーション
基本周波数パターンが成す韻律的特徴
韻律
音声の特徴のうち、比較的長い時間での推移によって特徴付けられるもの。物理的にはパワーパターン、基本周波数パターン(イントネーション)、持続時間のパターン(リズム)がある。
インバウンド/アウトバウンド
インバウンドは、お客からの照会や要望などに応える業務。アウトバウンドは、商品案内や売り込みを行う業務。インバウンドにおいては、顧客情報/FAQ/商品データベースなどの画面を参照しながら、また関連部門と連携してスピーディかつ顧客状況に見合った対応が必要である。アウトバウンドにおいては、客先情報を活用し適切なタイミングで最適商品およびサービスの案内を行うことが求められる。
エコーキャンセラー
音声の出力がマイクロホンに拾われてエコーを起こすのを防止する技術。電話の場合、スピーカーから出力された音声をマイクが拾ってしまい、エコーを起こす。これを防止するため、電話機の中にはエコーキャンセラーが内蔵されている。マイクロホン、スピーカーと音響機器との間でエコーを除去する働きを持つ外付けの機器もある。このエコーが大きくなるとハウリングを起こすことがあるが、エコーキャンセラーは結果的にハウリングを抑えることができる。
エコーキャンセル
電話などの音声通信の音質を確保するため、音声通信に含まれる反響(エコー)を除去する技術。
追っかけ再生
音声ファイルの録音がまだ終了していないときに頭から倍速で再生し始め、現在録音中の時点までたどり着くという録音・再生技術のこと。
オペレータ
コールセンターにおいては、客からの電話に直接対応する作業者のこと。
音圧
音波の強さを表す物理量。
音響検索
音響的に似ている音を検索する技術。
音響透かし
音声や音楽などの音響信号に、人の聴覚では聴こえないように情報を埋め込む技術。
音声合成
人工的に音声を生成すること。入力が文章(テキスト)の場合、TTS(text-to-speech)と言われる。それ以外に、概念から直接音声を合成するシステムや、発音の様式がより細かく記述された文字列から合成するなど様々な種類がある。
音声認識
音声信号から発声内容を抽出する一連の技術・方法のこと。
音声認証
音声の特性に基づく本人確認を行う技術のこと。バイオメトリックス技術の一つ。
音声符号化
音声信号を符号の列に置き換えることによって音声信号を圧縮する技術。音楽などの一般的なオーディオ信号を対象とするMP3などのオーディオ圧縮技術は、人間の聴覚心理学上の特性やデータの冗長性を利用して不要なデータの除去することで圧縮を行うが、音声符号化ではそれに加えて音声固有のモデル化を行うことができるため、さらに圧縮率を上げることができる。
音声分析
音声信号からパラメータを抽出することをいう。音声パラメータには様々な種類があるが、LPC・ケプストラム・LPCケプストラム・LSPなど短時間スペクトルの包絡を表すパラメータと、より長時間での挙動によって特徴付けられる韻律的特徴(基本周波数、パワーや時間的変化のパターン)がある。
音声分析合成
音声をパラメータ表現に変換した上、それを再び音声に変換する技術のこと。パラメータに変換すれば元々の音声をほぼ保持したまま、より少ない情報量で表現できるため、この技術は通信の分野で広く用いられている。また、パラメータを変換することによって、音声の特徴(基本周波数、時間的推移など)を制御することも可能である。
音節
ある言語で、通常一まとまりの音として意識され、発音される単位。日本語ではほぼ仮名一字が一音節にあたる。シラブル。
音素
音声の発音を表す最も小さい単位
音片編集
人間の音声を録音しておき,それを編集することで別の音声を生成する技術。人間の生の声に近い自然な品質が実現できる。しかし録音した言葉を組み合わせて作るため、決まった内容しか表現できない。そのため駅のアナウンスや時報などのように、一定のパターンがある限られた用途で使われる。
▲ページTOPへ戻る
カ行
キーワード型認証
認証対象の音声として、あらかじめきまった単語やフレーズなどの発声を用いる音声認証。
規則音声合成
音声を構成する音素や音節などの要素を自由に組み合わせて音を合成する技術。どんな音声でも合成できるが、自然性に難がある場合が多い。
基本周波数
基本周波数(英: Fundamental frequency)とは、信号を正弦波の合成(例えばフーリエ級数)で表したときの最も低い周波数成分の周波数を意味する。人間が感じる音の高さ(ピッチ)と密接に関係する。
業務アプリ
企業などの各業務を支援するアプリケーションソフトウェアのこと。
組み込みシステム
特定の機能を実現するために家電製品や機械等に組み込まれるコンピュータシステムのこと。
クライアント・サーバー処理
一つの処理をクライアントとサーバを分離するソフトウェアモデル。特定の役割を集中的に担当するサーバと、ユーザが操作するクライアントに役割を分け、これらが相互にネットワークで接続されている。
ケプストラム分析
音声信号処理の分野においては、時間音声波形のフーリエ変換の結果の振幅の対数値のフーリエ変換の結果を得ること。スペクトルの包絡線成分を求めたり、音声波形のピッチを抽出したりするのに用いる。ケプストラム(Cepstrum)は、スペクトラム(Spectrum)のspecの綴りを逆に並べた造語である。
高速フーリエ変換(FFT)
デジタル信号のフーリエ変換の処理を高速に行うアルゴリズム。FFTは、Fast Fourier Transformの略。
コーパスベース音声合成
規則音声合成と音片編集を組み合わせて、双方の欠点を補うように構成された音声合成技術。その言語の統計的性質を分析し、頻出する音素のつながりを必ず含むように、コーパス(文のセット)を設計し、それを読み上げた音声を大規模な音声データベースとして用意する。
コールセンター
顧客への電話対応業務を専門に行う事業所・部門のこと。
語感分析
言葉の音の響きから受ける印象を一定のロジックに基づいて数値化し、その言葉がどんな印象を与えるかを分析すること。アニモが運営するネーミング分析サイト「TOPAZ」では、分析の対象となる言葉が、同じ長さの音で構成される一般的な言葉と比べて何倍の語感の強さを持つのかを数値で示す分析法を用いている。
▲ページTOPへ戻る
サ行
雑音
対象としているデータに含まれる不要なデータ。音声の場合、騒音などがそれにあたる。
子音
音素が分類される種類の一つ。日本語の場合、5母音「あ、い、う、え、お」と撥音「ん」と促音「っ」を取り除いた50音のはじめの部分が子音に相当する。
指向性マイクロホン
特定の方向の音を録音するために指向性をつけたマイクロホン。その指向性の特性に応じて、無指向性、双指向性、単一指向性、狭指向性、鋭指向性、超指向性などに分類される。
失語症
脳出血、脳梗塞などの脳血管障害によって脳の言語機能の中枢(言語野)が損傷される高次脳機能障害。「聞く」「話す」といった音声に関わる機能と、「読む」「書く」といった文字に関わる機能に障害が現れる。
自由発話型(フリーワード)認証
音声認証で、認証対象の音声が自由な発声である音声認証。 認証対象の音声として、あらかじめきまっていない自由な発声を用いる音声認証。一般に発声長は、キーワード型認証よりも長い。
信号処理
音声や映像等、「信号」として解釈される数値列に対して何らかの数学的な演算を行うこと。離散化された信号(デジタル信号)の場合、「デジタル信号処理」という。
スーパーバイザー
コールセンター等の業務の監督、管理、監視を行う担当者のこと。
スピーカー
電気信号を空気の振動に変えて、音楽や音声などの音を生み出す装置。
スペクトラム分析
音声信号処理の分野においては、時間音声波形のフーリエ変換の結果を得ること。音声に含まれる各周波数の成分を調べることができる。
スペクトル
信号の短時間フーリエ変換の結果。その成分は信号の瞬間的な周波数成分構成を表す。
スペクトル包絡
音声スペクトルの大まかな形を表す包絡線。基本周波数よりもフォルマント周波数の方が顕著に表れる。
正視化LPC残差
音声信号をLPC係数で合成したときに生じる誤差(LPC残差)を正規化したもの。
声帯
喉頭腔の中間部の左右にある粘膜のひだ。発声器官として重要な部分。甲状軟骨と披裂軟骨との間に張られ、靱(ジン)帯と筋肉から成る。左右のひだの間に間隙(声門)があり、声は気管からの呼気がここを通る時に声帯筋を振動させて生じる。
声道
体内の音の発生器より発せられた音が、体外に放出されるまでの間に通過してくる、体内の空洞のことである。
線形予測係数(LPC)
音声信号の線形予測分析の予測係数。
線形予測分析(LPC分析)
線形予測分析は、離散信号の将来の値をそれまでの標本群の値の線型写像として予測する数学的処理である。音声など、全極型の周波数特性を有する信号の分析を効率的に行うことができる。LPCはLinear
Predictive Coefficient(線形予測係数)の略。
▲ページTOPへ戻る
タ行
単語
言語単位の一。文構成の最小単位で、特定の意味、文法上の職能を有するもの。文を構成する直接の単位である、文節をさらに構成する。
単語音声認識
孤立して発声された単語を認識する音声認識技術。
調音位置
子音の調音に際して声道内で空気の流れを妨げる場所のことを言う。
調音様式
調音に際して、喉頭以上の調音器官の形や動きによって発声器官内の空気の流れを制御したり、発声器官内で発生する音声の共鳴の仕方を変化させたり、新たな音を発生あるいは追加したりして、さまざまな母音や子音を発生させる方法を言う。
長母音
母音の持続時間が長いものをいう
通話録音(ボイスロギング)
通話中の通話内容を録音する機能のこと。重要な用件でお客の名前や連絡先、内容を聞きのがしたり間違えたりする心配を無くすことがもともとの目的。最近コールセンターでは、顧客の声(VOC)を表す貴重なデータとしてみなされ、マーケティングへの応用が検討されている。
ディクテーション
もともとは、音声を聞き取り、聞き取ったものを紙などに書き取ることを言う。これと同等の機能を持つ音声認識のことも指す。
テキスト音声合成(TTS)
Text-to-Speech。テキストを音声に変換する技術のこと。
デジタル
物理的な事象を離散的な値で表現すること。
テレフォニー技術
電話の技術および電話を効率的に扱うための周辺技術。
▲ページTOPへ戻る
ナ行
喃語(なんご)
幼児が言葉を獲得する以前に発声する声のこと。
二重母音
調音の開始時と終了時で音質を異にする母音のことをいう。調音している間に調音器官の位置が変化することによって生じる。
ノイズリダクション
音声あるいは映像の信号において雑音と見なされる成分を除去する処理。
▲ページTOPへ戻る
ハ行
バウンダリマイクロホン
床や机に直接置くタイプの平たいマイクロホン。会議などでしゃべっている声等を広域に渡って集音するのに適している。
バッチ処理
データ処理方式のひとつ。データを一定期間ためておいてから、まとめて処理する方式。
パラ言語
コミュニケーションの対象となる情報のうち、文字として表せない情報をいう。例えば声質や韻律的特徴がそれにあたる。
破裂音
「p」など、声道の一部を閉鎖し、それを急激に開放するときに生じる音
ハンドセット
受話器と送話器が一体となっている電話用器具で、手で持ちながら通話をするタイプのもの。
半母音
子音の一種。生成の様相がほとんど母音と同じであるが、持続されることなく移行的に変化する。子音ではあるが、声道における狭めの度合いがゆるいため、空気流に乱流を生じることはなく、しかも発声器官の動きが比較的ゆるやかなため、パルス的な音を伴うこともない。
鼻音
鼻腔が口腔と並んで声道の一部を形成するときに生じる音
非言語
コミュニケーションとは無関係な情報のこと。音声に含まれる情報のうち、個人に依存する声質の個人性がそれにあたる。一方、感情によって変化する声質は「パラ言語」とされる。
ピッチ
人間が感じる音の高さ。多くの場合、周期性のある信号における基本周波数に対応する。
悲鳴
驚いた時、恐ろしい時、困った時などに高く声をあげること。
標本化
連続的な時間にて定義される情報を離散的な時間でのみ表現しようとするとき、その時刻における代表値を選択するプロセスのこと。
フーリエ変換
音声信号処理の分野においては、時間波形の周波数表現を得る変換のことである。
フォルマント(フォルマント周波数)
声道の共振周波数と関連づけられ、音素を特徴づける優勢な周波数成分。
フレーズ
日本語の基本周波数パターンにおいて、呼気段落の先頭から呼気段落末に向かって緩やかに下降するフレーズ成分と単語、分節を表すアクセント成分があるが、フレーズはフレーズ成分によって形成されるイントネーションの基本単位である。
文節
日本語の言語単位の一。文を、実際の言語として不自然でない程度に区切ったときに得られる最小の単位。たとえば、「赤い花が咲いた」という文は、「赤い」「花が」「咲いた」の三つの文節から成る。文節は、一つの自立語、またはそれに付属語の付いたものから成り、それ自身一まとまりの音声上の特徴をもつ。
ヘッドセット
受話器と送話器が一体となっている電話用器具で、頭に装着して手で持つ必要のないタイプのもの。
母音
音素が分類される種類の一つ。日本語の場合、「あ、い、う、え、お」が母音である。
▲ページTOPへ戻る
マ行
マイクロホン
音を電気信号に変換する機器。放送、録音、音楽、集会、電話など多方面に利用される。変換方法の違いにより、ムービング・コイル型、リボン型、コンデンサ型、カーボンマイク、圧電マイク、レーザーマイクなどに分類される。
マイクロホンアレイ
多数のマイクをアレー状に並べてその出力を電気的に足し合わせて指向性を得るマイクロホン。単純に足し合わせても高い指向性が得られるが、それぞれの信号を演算によって遅延器を通した効果を与えると、指向性の方向を変えられる。それぞれのマイクの信号をいったんコンピューターに記録して、計算によって音源の方向や距離を割り出すこともできる。
摩擦音
「s」など、声道の一部を狭め、そこを呼気が急速に通り抜けるときの乱流による雑音
マザリーズ
母親が幼児に対して話しかけるときに見られる特殊な発声のこと。
モーラ
日本語の音韻の基本的な単位。単一のリズムをなす音節(音韻論的音節)で、日本語では促音・撥音も一拍に数えられる。
問題呼
コールセンターにおいては、受注、苦情受付などその担当業務がうまくいかなかった問題を含む電話の呼のこと。
▲ページTOPへ戻る
ヤ行
▲ページTOPへ戻る
ラ行
リアルタイム処理
データ処理方式のひとつ。データが発生したときに、そのたびごとに処理する方式で、処理が決められた時刻までに終了する。
立体音響
音を再生する際に3次元的な音の方向や距離、拡がりなどを表現する方式のことである。3次元音響、3Dオーディオともいう。 また、3次元の空間上の音場を制御する3次元音場制御システムのことを指す場合もある。
量子化
アナログ情報を離散的な値で近似したいとき、最も近い値を選択するプロセスのこと。
流音
「l」と「r」の音
連続単語音声認識
連続して発声された単語を認識する音声認識技術。数字を連続して発声するものは、連続数字認識と呼ばれる。
▲ページTOPへ戻る
ワ行
ワードスポッティング
連続して発声された音声から特定の単語を見つけ出す(スポッティング)音声認識技術。
話速
発話のスピード。日本語の場合、一秒あたりに発声するモーラ数(モーラ/秒)を単位とすることが多い。
話速変換
音声の基本周波数(引いてはピッチ)を変更せずに発声速度を変更する技術のこと。
笑い声
人が笑うときに発声する声。
▲ページTOPへ戻る
A
AAC
Advanced Audio Codingの略称。1997年にISO/IEC JTC 1のMoving Picture Experts Group(MPEG)において規格化された音声圧縮方式で、MPEG-2から導入された。MP3の後継である。MP3よりも1.4倍ほど圧縮効率が高く、音質はほぼ同じである。ポータブルオーディオ機器向けのAAC-LC(Low
Complexity)と、より高度な圧縮技術を採用するHE-AAC(High-Efficiency AAC)がある。AACはアップル社によりiPodのオーディオ圧縮方式として利用されているほか、日本の地上デジタルテレビ放送にも採用されている。
AD変換器
アナログ信号をデジタル信号に変換する装置。内部では量子化と標本化が同時で行われる。
ASF
Advanced Systems Formatの略称。Microsoft社が開発したAVI後継のファイル形式であり、ASFファイル、ASFコンテナなどと呼ばれている。ストリーミング配信に適し、また同時にローカル上での再生も可能である。1つのファイルにマルチビットレートビデオ・オーディオ・メタデータ・静止画・URL・字幕等のデータを格納できる。
AVI
Windows標準の動画用ファイルフォーマット(コンテナ形式)である。RIFFフォーマットを利用し画像と音声を交互に織り交ぜながら格納しているマイクロソフトがアップルコンピュータのQuickTimeに対抗するために開発したAPI、Video for Windowsで対応している。
▲ページTOPへ戻る
b
▲ページTOPへ戻る
C
CTI
Computer Telephony Integrationの略。電話やFAXをコンピュータシステムに統合する技術。顧客に電話で応対するコールセンター業務で広く利用されている。顧客データベースと連携したシステムでは、顧客のプロフィールや過去の応対履歴、購入履歴などを参照しながら的確なサポートを提供することができる。こうしたCTIを含めた統合型の顧客対応システムはCRM(Customer
Relationship Management)と呼ばれる。
▲ページTOPへ戻る
D
DA変換器
デジタル信号をアナログ信号に変換する装置。内部では量子化の逆プロセスと標本化の逆プロセスが行われる。
DB
Databaseの略称。特定のテーマに関するデータを集めて管理し、検索・抽出などの再利用を容易にできるようにしたもの。コンピュータ上では、データの再利用を高速かつ安定に実現するため、データを格納するための構造について様々な工夫が払われている。このデータ構造とアルゴリズムは情報工学において重要な研究分野のひとつとなっている。単純なファイルシステム自体には、「データ」を統一的手法で操作する機能はなく、ファイルシステムでデータ管理をするためには、データの操作機能を「応用プログラム側」に持つしかない。データベースは、それを自ら持つことにより、応用プログラム側でデータの物理的格納状態を知らずとも操作でき、かつ、データの物理的格納状態に変更があった場合にも応用プログラム側の処理に影響が及ばないことを保障することがデータベースの前提条件となっている。
DTMF
Dual-Tone Multi-Frequencyの略。0から9までの数字と、*、#、A、B、C、Dの記号の計16種類の符号を、低群と高群の2つの音声周波数帯域の合成信号音で送信する方法である。別名「トーン信号」「ダイヤルトーン」「プッシュ信号」とも呼ばれ、その信号音は人間の可聴域にあるため「ピ、ポ、パ」とも表現される。
▲ページTOPへ戻る
E
▲ページTOPへ戻る
F
FAR
False Acceptance Rateの略で、他人受入率。音声認証など生体認証において、他人を本人と誤って受け入れてしまう確率。
FIRフィルター
Finite Impukse Resposeフィルターの略、有限インパルス応答フィルター。FIRフィルターは、一般に高コストであるが、常に安定である。FIRフィルターは、デジタルのみである。
FRR
False Rejection Rateの略で、本人拒否率。音声認証など生体認証において、本人を誤って棄却してしまう確率。
▲ページTOPへ戻る
G
▲ページTOPへ戻る
H
HRTF
Head-Related Transfer Functionの略、日本語では頭部伝達関数。耳殻、人頭および肩までふくめた周辺物によって生じる音の変化を伝達関数として表現したもの。立体音響の効果を付与する場合に利用される。
▲ページTOPへ戻る
I
IIRフィルター
Infinite Impulse Responseフィルターの略、無限インパルス応答フィルター。無限長のインパルス応答を持つフィルター。IIRフィルタは一般に低コストに実現できるが、安定性が劣る場合がある。IIRフィルタとしては、チェビシェフフィルタ、バターワースフィルタ、ベッセルフィルタなどの種類がある。IIRフィルターは、アナログとデジタルの両方がある。
IP電話
電話網の一部もしくは全てをVoIP技術を利用する電話サービス。
IVR
Interactive Voice Responseの略。日本語では、音声自動応答。電話で音声による自動応答を行うコンピュータシステム。発信者のダイヤル操作に合わせて、あらかじめ録音してある音声を発信者側に自動的に再生する。音声認識機能を備え、相手の発話に応じて再生内容を決めるものもある。
▲ページTOPへ戻る
J
JIST法
言語獲得および再獲得は、身体と脳を統合した全体で一つの精神活動であるという概念に基づいて確立された話しことばの獲得および再獲得(失語症リハビリ)の方法。全体構造法と呼ばれる。
K
KPI
Key Performance Indicatorの略。コールセンター等の目的を達成するために設定した具体的な業務プロセスをモニタリングするために設定される指標のうち、特に重要なもの。
L
▲ページTOPへ戻る
M
MP3
MPEG-1/2 Audio Layer-3の略称。音響データの圧縮技術およびそれから作られる音声ファイルフォーマットの名称。MP3は聴感上極端な音質劣化を伴わずに圧縮できるため(音声データ自体は極端に劣化している)、CDなどの音源媒体からPCのハードディスクドライブに取り込む過程で広く普及している。ボイスレコーダーでも、汎用性の観点からMP3形式での録音可能な機種が出始めている。MP3は周波数による音の聞こえ易さの違い(最小可聴限界)や大きな音が鳴った際に、その直前直後や近い周波数の小さな音が聞こえにくくなる現象(時間/周波数マスキング)等の人間の聴覚心理を利用した圧縮を行うため、エンコーダの実装(聴覚心理モデルの調整)次第で圧縮品質は大きく変化する。標準のMP3にはデジタル著作権管理機能が付いていない。著作権保護に対応するためのセキュアMP3がある。
N
▲ページTOPへ戻る
O
▲ページTOPへ戻る
P
PARCOR
PARtial auto-CORrelationの略。「パーコール」と読む。音声符号化技術のひとつ。
PBX
(Private Branch eXchangeの略):企業などで内線電話同士の接続や、加入者電話網などの公衆回線への接続を行う機器。
▲ページTOPへ戻る
Q
▲ページTOPへ戻る
R
RDB
Relational databaseの略称。1件のデータを複数の項目(フィールド)の集合として表現し、データの集合をテーブルと呼ばれる表で表すデータベースの方式である。ID番号や名前などのキーとなるデータを利用して、データの結合や抽出を容易に行うことができる。データベースとしては最も広く普及している方式である。大規模システムではOracle社の「Oracle」が、小規模システムではMicrosoft社の「Access」のシェアが高い。
RDBMS
Relational databasemanagement systemの略称RDBを管理するソフトウェア。
▲ページTOPへ戻る
S
▲ページTOPへ戻る
T
▲ページTOPへ戻る
U
USBオーディオ
PCなどのUSBに接続するタイプのオーディオインタフェース。スピーカや光デジタル入出力といった機能がある。手軽に低コストで高音質を実現しやすい。
▲ページTOPへ戻る
V
▲ページTOPへ戻る
W
WAV
マイクロソフトとIBMにより開発された音声データ記述のためのファイル形式である。RIFF(Resource Interchange File
Format)の一種。主としてWindowsで使われる。コンテナ形式でありデータ形式は自由である。通常は非圧縮、リニアPCMのサンプリングデータ用のフォーマットとして扱われる。μ-lawや、ADPCM、MP3、WMAなどの圧縮データを格納することもできる。web(ウェブ)と区別するために、「ワブ」と発音されることもある。
WMA
Windows Media Audioの略称。マイクロソフトがWindows Mediaの中核をなすものとして開発した音声コーデックの一つ。コンテナ形式はASFを使用する。オリジナルのWindows
Media Audio(WMA Std)コーデックのほかに、多チャンネル高解像度に対応したWindows Media Audio Professional(WMA
Pro)コーデック、可逆圧縮のWindows Media Audio Lossless(WMA Lossless)コーデック、音声コンテンツ向けのWindows
Media Audio Voice(WMA Voice)コーデックがある。
X
▲ページTOPへ戻る
Y
▲ページTOPへ戻る
Z
▲ページTOPへ戻る