音声合成(おんせいごうせい、"Speech synthesis")とは、人間の音声を人工的に作り出すことである。これを行うシステムをスピーチ・シンセサイザー("Speech synthesizer")、これにより生成した音声を合成音声(ごうせいおんせい)と呼ぶ。人工的に人の声を合成するシステムであり、テキスト(文章)を音声に変換できることから、しばしばテキスト読み上げ("text-to-speech"、略してTTS)システムとも呼ばれる。また、発音記号を音声に変換するシステムもある。現代的な電子信号処理が発明されるずっと以前から、西アフリカのトーキングドラム等のように音声を模倣する試みがなされてきた。音声を合成する初期の試みとしては、のちに教皇シルウェステル2世となるオーリヤックのジェルベール(1003年没)、アルベルトゥス・マグヌス(1280年没)、ロジャー・ベーコン(1294年没)などの人物が音声合成を試みている。1779年にはドイツ人クリスティアン・クラッツェンシュタインは母音 (a, e, i, o, u) を発声できる機械を製作した。この流れはふいごを使った機械式音声合成器を作ったオーストリア(ハンガリー)のヴォルフガング・フォン・ケンペレンに引き継がれた。彼は1791年に論文を発表し、その機械について説明している。この機械は舌と唇をモデル化しており、母音だけでなく子音も発音できた。1837年、チャールズ・ホイートストンはフォン・ケンペレンのデザインを元にしゃべる機械を製作し、1857年、M. FaberはEuphoniaを製作した。ホイートストンの機械は1923年Pagetによって再現されている。1930年代、ベル研究所のホーマー・ダドリー()は通信用の電子式音声分析・音声合成マシンであるヴォコーダー (、Voice Coderの略) を開発した。その後これを応用し、音声合成部にキーボードを付加した鍵盤演奏型のスピーチ・シンセサイザーであるヴォーダー()を製作し、ニューヨーク万国博覧会 (1939年)に出展した。その発声は十分理解可能だったと言われる。1940年代、ハスキンズ研究所(Haskins Laboratories)のフランクリン・S・クーパー()らはという名の機械の開発に取り組み、1950年に完成した。この機械にはいくつかのバージョンがあるが、実際に機能したのは一つだけである。この機械は、スペクトル形式の音声パターンの図を音に変換するものであった。アルヴィン・リバーマン()らはこれを音声学の研究に利用した。最初のコンピュータを使った音声合成システムは1950年代終盤に開発され、最初のテキスト読み上げシステムは1968年に開発されている。1961年、物理学者John Larry Kelly, Jr.とLouis Gerstmenはベル研究所にてIBM 704を使って音声合成を行った。そして『デイジー・ベル』という歌をコンピュータに歌わせた。友人のジョン・ピアースを訪ねてベル研究所に来ていたアーサー・C・クラークは、このデモを聴いて感銘を受け、『2001年宇宙の旅』でHAL 9000が歌うクライマックスシーンが生まれた。初期の電子式スピーチ・シンセサイザーの発声は、ロボット的であまり明瞭ではないものが多かった。その後の発達により、今日のTTSシステムはむしろ人間の声と区別が付かない場合が少なくない。(ただし電子式の成功後も、人間型ロボットに発声させるため、機械式音声合成の研究は続けられた。発声メカニズムのコンピュータによるシミュレーションには限界がある一方、ロボットで人間の体の構造を模倣した機械式音声合成により、それより良いシミュレーションができる可能性はあるからである)。音声波形を生成する主要技術は、大きく波形接続型音声合成 (concatenative synthesis) とフォルマント合成 (formant synthesis) の2つに分ける事ができる。波形接続型音声合成は、基本的には録音された音声の断片を連結して合成する方法である。一般に波形接続型音声合成は最も自然な合成音声になるといわれているが、発声のバリエーションと波形の断片化の細かさによっては出力音声に欠損が生じ、自然さを損なうことがある。波形接続型音声合成には以下にあげる三種類がある。フォルマント合成は録音された人間の音声は使用せず、基底周波数、音色、雑音レベルなどのパラメータを調整して波形を作り、人工的な音声を作る。合成された音声はロボット的に聞こえる音声になるため、人間の音声と間違えることはない。フォルマント合成は波形接続型音声合成と比べ次の様な特徴も持っている。上記の様な特徴のため、組み込みシステムでもよく使われ、フォルマント合成の例として、1970年代末にテキサス・インスツルメンツが発売した玩具Speak & Spell、セガの1980年代のいくつかのアーケードゲームがある(Astro Blaster、Space Fury、Star Trek: Strategic Operations Simulatorなど)。これらのイントネーションの再現は非常によく、リアルタイムのテキスト読み上げインタフェースでの実現はこれからである。音声合成技術は文字を読むことが困難な障害者や、文字が読めない人(幼児、外国人など)に画面読み上げソフト(スクリーンリーダー)として長く利用されてきており、言葉を発することが困難な人が代替手段として利用することも多い。また、21世紀に入ってからは家電製品の音声ガイダンスや、公共交通機関や防災関係のアナウンス用途として音声合成されたものが広く使用されるようになっている。これは、人間が発声したものを録音すると、台詞の変更の度にその部分を録音をし直さなければならないが、音声合成であればデータの作成で済むためである。実際に、鉄道用アナウンスでは、駅が追加されたり名称変更があっても、その箇所のみが変更されている。また、個人向けのソフトウェアなどにも活用されてきている。テキスト読み上げシステムは、フロントエンドとバックエンドのふたつの部分からなる。一般に、フロントエンドは入力したテキストから記号化言語表現 ("symbolic linguistic representation") を出力する。バックエンドはフロントエンドで合成された音声の波形を出力する。音声合成の自然さは、出力される音声がいかに現実の人間の音声に似ているか、明瞭度は聴きやすさ(出力音声の理解しやすさ)で評価される。
出典:wikipedia
LINEスタンプ制作に興味がある場合は、
下記よりスタンプファクトリーのホームページをご覧ください。