音声合成とは?AIで何が変わる?仕組み活用事例4選を紹介!
最終更新日:2024年11月14日
ディープラーニング(深層学習)の発展によって、機械学習に基づいた「音声合成」は飛躍的に技術の進歩を遂げています。コールセンターを始めとする対人業務を主とする業界では、既に音声合成の技術なしには効率的に立ち行かないオフィスも少なくありません。しかし「AIを活用した音声合成とは?」「音声合成AIを活用してできることは?」といった疑問をお持ちの方も多いでしょう。
本記事では、音声合成の仕組みと、AI(人工知能)によって進展した技術革新について解説し、実際の音声合成サービスや、活用事例を紹介します。
コールセンターで活用されているAIサービスと活用事例、注意点についてはこちらをご参考ください。
AI Marketでは、
貴社に最適な会社に手間なく数日で出会えます
「AI音声認識・音声解析に強いプロ厳選おすすめAI開発会社」はこちらの記事で解説しています。
音声合成とは?
「音声合成」とは、話し手側の音声を機械的に作り出すことです。音声言語を介したコミュニケーションには、話し手と聞き手が存在します。一方、聞き手が話し手の会話の意図を機械的に理解する技術は「音声認識」です。AIによる音声認識の仕組み、主な用途についてこちらの記事で解説していますので併せてご覧ください。
音声合成を活用することで、人による情報の読み上げ作業を省略化できる可能性があります。適用の範囲が非常に広く、市場も大きいことから各業界から注目されているのです。最近では、ディープフェイクと呼ばれる動画生成技術の根幹をなしています。
ディープフェイクのビジネス活用事例、注意点についてこちらの記事で解説していますので併せてご覧ください。
音声合成の手法のうち、任意のテキストを音声に変換する方法を、「テキスト合成音声(Text-to-Speech)」といいます。AIによる音声合成を実現するためには、そのAI構築に欠かせない学習データの作成(アノテーション)も必要な作業です。
プロ厳選!おすすめのアノテーションサービス会社の記事では、AI Marketの専門のコンサルタントによるアノテーションのサービス会社を紹介していますので、ぜひご参考ください。
音声合成でできること
音声合成は主に以下を可能にします。
- 声質変換
- ノイズキャンセル
- バーチャルヒューマン
それぞれのポイントについて説明します。
声質変換
声質変換は、特定の人の音声データを学習させて、入力音声・テキストをまるでその人がしゃべっているように変換できる技術です。ボイスチェンジャーのようなものですが、その人が今まで一度も発したことのないフレーズや、少し風邪をひいた鼻声などのを忠実に再現できる点で通常のボイスチェンジャーと異なります。
AIの発展により、音声の解析に必要な情報量は格段に削減され、残った音声情報が多くない人であっても音声を合成できるようになっています。亡くなった人の声などを再現することができるのではないかと期待され、商用の研究が進められています。
ノイズキャンセル
ノイズキャンセルは、低品質な音声から高音質な音声を生成させる技術です。例えば、劣化したマイクから入力されたノイズ混じりの低品質な音声データがあったとします。そのようなデータであっても、高音質でクリアな音声へ変換できます。
バーチャルヒューマン
「バーチャルヒューマン」は、コンピュータによって生成されたデジタルキャラクターです。
音声合成AIは、バーチャルヒューマンにおいて、リアルで自然な音声を生成することで重要な役割を果たします。バーチャルヒューマンの対話能力とユーザー体験を大幅に向上させるものです。
AI技術の進歩により、バーチャルヒューマンは単なるチャットボットを超えた存在へと進化を遂げています。状況に応じた表情やリアクションで対応する能力を持ち、コミュニケーションの質を高めることで、ユーザー体験を根本から変える力を秘めています。
バーチャルヒューマンの活用事例をこちらの記事で詳しく説明していますので併せてご覧ください。
音声合成の仕組み
音声合成の技術は時間をかけてさまざまな方法が研究され活用されてきました。音声合成技術を分類したものが下図です。
図:音声合成技術の分類
左から右に向けて新しい技術となっていきます。枝分かれしているものは、前技術を応用して改良した方式です。それぞれの方式について簡単に説明します。
録音編集方式
録音編集方式は、音声合成技術の初期段階の基本的な方式です。地名や番号などあらかじめ固定された内容の単語を録音しておき、それらを組み合わせて音声を再生します。
限定された内容では品質の高い読み上げが可能で、公共交通機関のアナウンスなどに主に利用されています。
テキスト音声合成方式
テキスト音声合成方式は、テキストを読み上げ音声にする方式です。どんな言葉でも対応できます。
さらに細かく分類すると、「規則合成方式」と「コーパスベース合成方式」があります。
規則合成方式
規則合成方式は、音声合成の専門家によって音響的、言語的規則のルールを記述し音声波形を合成する手法です。
テキストから音声を生成するため、新しい単語にも対応できるメリットがあります。
しかし、機械が読み上げている感覚が強いため、Webサイトやメールの読み上げなどのアクセシビリティツールとして活用される以外に、あまり利用されませんでした。
コーパスベース合成方式
コーパスとは音声と言語をセットに集積したデータベースのことです。コーパスベース合成方式は、会話、スピーチ、インタビューなど音声データを大量に集めた音声コーパスを作成します。
コーパスを利用して音声合成を行う仕組みがコーパスベース合成方式です。テキストを入力した時、コーパスに格納された音声波形を用いて音声合成します。
さらに波形の生成方法によって「波形接続型」「統計モデル型」に分類できます。
波形接続型音声合成方式
音声を大量に録音しておき、それらの素片をつなぐ方法です。録音した音声波形を直接加工して利用可能なので、高音質の音声合成ができます。
一方で、単純に波形を組み合わせるだけだと不自然になってしまうので、アクセントや構文などの情報によって適切な組み合わせを抽出するために自然言語処理や音声信号処理など高い技術や専門知識が必要です。
統計モデル型音声合成方式
機械学習を用いた手法です。音声素片ではなく、音声パラメータを表現する統計モデルによって作られます。
データをもとに学習をしてモデルを作り、それを使って推論する機械学習です。学習は、音声データベースを用いてテキストと音声の関係から音響モデルを作成します。
テキスト解析によって取り出した単語や品詞と音声の音響特徴量の関係を学習しておき、テキストから音響特徴量を推定して音声波形を合成する音響モデルを作ります。
統計的手法として、隠れマルコフモデル(HMM)が用いられるようになりました。近年では、ディープニューラルネットワーク(DNN)を用いた手法が活発に研究されています。
関連記事:「DNN(ディープニューラルネットワーク)とは?仕組み・活用メリット・活用分野・注意点を徹底紹介!」
AIによる音声合成技術が注目される理由
不自然さや違和感をなくした音声を作り出せる点が、AIを使った音声合成の大きなメリットです。以前は不自然で違和感の大きかった機械音声が、ディープラーニング技術によって人間の声とほぼ区別がつかない自然な音声へとなっていきました。自然な人間の声を人工的に作れるようになり、活用の範囲が広がりました。
ディープラーニングの仕組み、機械学習との違いについてこちらの記事で解説しています。
以前の技術では機械的な人工の声になってしまい、違和感や不自然さを感じる他、誤読やイントネーションの違いをリアルタイムでの検出がとても難しく実用化には向かない状況でした。自然な音声を作り出すためには、誤読をなくしイントネーションやアクセントを正しくすることが必要です。テキストデータの分析も必要ですが、それだけでは、漢字の読み方や正確なイントネーション、アクセントの位置まで認識できるとは限りません。
AIによるテキストの分析について、仕組みをこちらの記事で説明しています。
近年、AIの中の特にディープラーニング技術によって、各課題を解決しつつあります。音声や読み方、イントネーション、アクセントなどのデータを、文脈を加味した上で大量に学習し、ディープラーニングをはじめとしたAI技術によって自然な発音が可能となります。音声合成と並んで成長し続けているAIの関連分野に、言葉を音として入力しテキストデータ化する音声認識があります。
音声認識を簡単に導入できるAzure Text to Speechについてはこちらの記事で詳しく説明していますので併せてご覧ください。
AI Marketでは、
貴社に最適な会社に手間なく数日で出会えます
音声合成AIの活用事例・サービス
音声合成AIは数多くの製品やサービスが提供され、さまざまな分野で導入されてきています。
本記事では、音声合成AIの活用事例やサービスを4例紹介します。
コールセンターでの事例:mobiVOICE
音声合成コンテンツの企画や制作・開発を手掛けるコエステ株式会社は、音声合成サービス「coestation」を提供しています。
coestationは、モビルス株式会社が提供しているAI電話自動応答システム「mobiVOICE」に採用され、最先端の音声合成技術で自然な発話のアナウンス表現を可能としました。
mobiVOICEは、電話での問い合わせに24時間365日いつでも自動で応答できるシステムです。
coestationの搭載で感情表現や抑揚など細かな調整もでき、おもてなし調や注意喚起などができます。多種多様な有名人・著名人の声を利用でき、効果的なPRツールとしての活用も可能です。
コールセンターではAIによるボイスボット技術を取り入れて業務効率化や生産性の向上を可能としています。
ボイスボットの仕組み、実際の事例はこちらの記事で紹介していますので併せてご覧ください。
文字読み上げ、アナウンスの事例:CoeFont CLOUD
AIを活用した日本語の音声合成サービスを手掛ける株式会社CoeFontは、「CoeFont CLOUD」サービスを提供しています。
自分の声をコンピュータ音声として簡単に登録でき、さらに登録した人の声から作成したコンピュータ音声を使い、テキストで記述した文章を読み上げてもらうことが可能です。
他の人の声をフォントのように扱えるサービスと位置付けており、読み上げる音声に有名人の声も利用可能です。ゲームのセリフに音声をつけたり、カーナビの音声に設定したり多くの分野での活用が期待されています。
文脈に応じてアクセントなど自然な音声の作成が可能です。また、使用環境が限定されず、ウェブブラウザで利用が可能。パソコンでアクセントの編集も手軽に行えます。
医療・福祉分野での事例:対話型AI HAL3
AIによる自動応答システムを手掛けるクリスタルメソッド株式会社は、対話型AIシステムの「HAL3」を開発。人とコミュニケーションをとるために開発され、機械音のない自然な音声にするため、音声合成の技術を利用しています。
雑談や問診などHAL3からの自然な会話から患者の感情認識や快不快の認識、精神状態などを捉え、医療や介護分野においての異変に気づくことに特化。福祉の面では目の見えない人や失語症の人のサポートとして読み上げサービス提供し、より自然なイントネーションを可能にしています。
他の医療・福祉分野でのAI活用事例について「医療・看護・病院のAI活用事例・ヘルスケアサービス【最新版】」でさらに特集しています。
案内、スマートスピーカーでの事例:AI Talk
文章の自動読み上げソフトウェアの開発を手掛ける株式会社エーアイは、音声合成ソフトの「AI Talk」を販売しています。ディープラーニング技術によって、高性能で自然な音声合成が可能です。
短時間での音声収録であっても感情表現は滑らかで、活用シーンに合わせて音声合成方式が選択できます。
駅構内の音声案内や防災行政無線、全国瞬時警報システム(J-ALERT)に採用されるなど、数多くの音声合成エンジンとしての実績が豊富です。
その他スタートアップから大手企業、官公庁に至るまでさまざまな企業で500社以上の導入実績があります。
Amazon Polly
Amazon Pollyは、テキストデータを音声データに変換するAWS(Amazon Web Services)のサービスです。これまで、音声を利用したコンテンツを高品質で作るには、アナウンサーやナレーターなどの人員が必要でした。しかし、Amazon PollyのようなText to Speechサービスを利用すれば、安価かつ簡単に音声データを入手できます。
Amazon PollyのニューラルTTSはディープラーニングを用いて人間の声や話し方の微妙なニュアンスを学習して自然で滑らかな音声の生成を行います。ニューラルTTSにより、話し言葉の流れ、アクセント、感情表現など聞き手にとってよりリアルな聞き取り体験を提供します。
Amazon Pollyは日本語や英語だけでなく、アラビア語やフランス語など25の言語に対応しています。そのため、海外進出しているサービスでも言語の壁を作ることなく対応可能です。また、テキストデータを素早く音声データに変換できます。例えば、3,000文字以内のテキストデータは、即時に音声データをダウンロード可能です。
オーディオブック、バーチャルアシスタント、Eラーニングなど、様々な分野をより豊かで魅力的なものに変える可能性を持っています。
音声合成についてよくある質問まとめ
- 音声合成AIでは具体的に何ができるようになりますか?
音声合成AIでは主に以下のことが可能になります。
- 声質変換:特定の人の声を再現し、新しいフレーズを生成
- ノイズキャンセル:低品質な音声を高音質に変換
- バーチャルヒューマン:リアルな音声を持つデジタルキャラクターの作成
- 自然な音声での文章読み上げやアナウンス
- AIによる音声合成技術はどのように進化してきましたか?
AIによる音声合成技術の進化は以下の通りです。
- 録音編集方式:単語を組み合わせる基本的な方式
- テキスト音声合成方式:規則やコーパスを基にした合成
- 波形接続型音声合成:録音した音声波形を組み合わせる
- 統計モデル型音声合成:機械学習を用いた手法
- ディープラーニングによる音声合成:より自然で高品質な音声生成
- 音声合成AIの具体的な活用事例にはどのようなものがありますか?
音声合成AIの主な活用事例には以下があります。
- コールセンター:AI電話自動応答システム(mobiVOICE)
- 文字読み上げ:テキストの自動音声化(CoeFont CLOUD)
- 医療・福祉:対話型AIによる患者支援(HAL3)
- 案内・警報システム:駅構内案内やJ-ALERT(AI Talk)
- 多言語対応音声サービス:Amazon Polly
音声合成AIの開発は代行会社へ
本記事では音声合成について解説し、AIを活用した技術や実際の活用事例を紹介しました。音声合成は飛躍的な進歩を遂げ、一番の課題とされていた「不自然な機械のような音声」の違和感を払拭しつつあります。
自由に音声を合成できることで、活用の分野の幅が広がるでしょう。
ただし、音声合成AIを導入する際はコストや種類の選定など、検討する部分が多く存在します。導入する際にお悩みになりましたら、最適なAI開発会社紹介を行なっているAI Marketをぜひご利用ください。
AI Marketでは、
貴社に最適な会社に手間なく数日で出会えます
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp