Amazon Pollyとは?テキストtoスピーチを5分で実現?!導入事例・料金や対応言語・使い方・商用利用を徹底解説
最終更新日:2024年11月05日
動画や音声サービスのナレーションをAI音声で対応したいと考えている方も多いのではないでしょうか。
今回紹介するAWSの人気サービス
本記事では、
AI Marketでは
音声合成・音声認識に強いAI開発会社を自力で選びたい方はこちらで特集していますので併せてご覧ください。
関連記事:「AWSとAzureを徹底比較!強みや弱み、適したケースなどを徹底解説」
目次
Amazon Pollyとは?
Amazon Pollyは、テキストデータを音声データに変換するAWS(Amazon Web Services)のサービスです。ディープラーニング技術により、人間が話しているかのような流暢な音声を生成します。
これまで、音声を利用したコンテンツを高品質で作るには、アナウンサーやナレーターなどの人員が必要でした。しかし、Amazon PollyのようなText to Speechサービスを利用すれば、安価かつ簡単に音声データを入手できます。
Amazon Pollyに搭載されているシステム
Amazon Pollyには、以下の3つのシステムが搭載されています。
- 標準TTS(TTS:Text to Speech): 基本的なテキストから音声への変換機能を提供します。
- NTTS(ニューラルTTS): ディープラーニングを活用し、より自然で感情表現に富んだ高品質の音声を生成します。
- ロングフォーム音声:長時間のコンテンツでも聞きやすい、自然で表現力豊かな音声を提供します。
NTTS(ニューラルTTS)は、従来のテキスト音声変換技術(TTS)を進化させたもので、より高度な音声合成を可能にします。従来のテキスト音声変換技術は事前に収録された音声データを組み合わせることで、テキストを音声に変換していました。
それに対し、NTTSはディープラーニングを用いて人間の声や話し方の微妙なニュアンスを学習して自然で滑らかな音声の生成を行います。ニューラルTTSにより、話し言葉の流れ、アクセント、感情表現など聞き手にとってよりリアルな聞き取り体験を提供します。オーディオブック、バーチャルアシスタント、Eラーニングなど、様々な分野をより豊かで魅力的なものに変える可能性を持っています。
AIによる音声合成技術の仕組みをこちらの記事で詳しく説明していますので併せてご覧ください。
Amazon Transcribeとの違い
Amazon TranscribeとAmazon Pollyは、どちらもAmazon Web Services(AWS)が提供する音声関連のサービスです。Amazon Pollyが、テキストを自然な音声に変換する音声合成(TTS)サービスです。音声コンテンツの生成、ナレーションの作成、インタラクティブな音声応答システムの構築などに利用されます。
一方、Amazon Transcribeは逆に音声をテキストに変換する自動音声認識(ASR)サービスです。
Amazon Pollyの料金
Amazon Pollyは従量課金制であるため、利用した分しか支払う必要がありません。また、Amazon Pollyを初めて利用する方には無料利用枠があります。
ただし、NTTSやロングフォーム音声を利用する場合、料金は標準TTSに比べて3~25倍程度高くなります。NTTSシステムは、標準TTSに比べて顕著に高品質な音声を提供し、ロングフォーム音声機能により、長文の読み上げでも聞き手を飽きさせないリッチなオーディオ体験を実現します。
以下がAmazon Pollyの料金の一例です。
標準TTS | NTTS | ロングフォーム音声 | |
---|---|---|---|
リクエスト1,000 件 | 約591円(4.00 USD) | 約2,364円(16.00 USD) | 14,780円(100.00 USD) |
1件の文字数:1,000文字 | 約591円(4.00 USD) | 約2,364円(16.00 USD) | 14,780円(100.00 USD) |
リクエスト1万件 | 1.4円(0.01 USD) | 7.3円(0.05 USD) | 45.7円(0.31 USD) |
1件の文字数:100文字 | 4.4円(0.03 USD) | 14.7円(0.10 USD) | 96円(0.65 USD) |
一般的なメール | 17.7円(0.12 USD) | 70.9円(0.48 USD) | 443円(3.00 USD) |
上記のように、数千件のテキストデータを音声データに変換しても、日本円で(1ドル150円とすると)600円程度と、非常に安く利用できます。
Amazon Pollyは従量課金制であるため、小規模な利用を考えている企業にも適しています。
無料枠もあり、Amazon Pollyへの初めてのリクエストから最大12カ月利用できます。各システムで利用できる文字数は以下の通りです。
標準TTS | NTTS | ロングフォーム音声 |
---|---|---|
500万文字 | 100万文字 | 50万文字 |
12カ月という長い期間、これだけ多くの文字数を音声に起こすことができます。規模によっては、1年間全く料金を支払わずに利用できる企業もあるかもしれません。ツール選択で迷っている方は、無料利用枠を利用してAmazon Pollyを試してみるのもよいでしょう。
Amazon Pollyが使用するAI技術は、ディープラーニングとテキストから音声への合成(TTS: Text-to-Speech)の進化した形態であるニューラルTTS(NTTS)に基づいています。このセクションでは、これらの技術の基本概念と、Amazon Pollyにおけるその応用について詳しく解説します。
AI Marketでは
Amazon Pollyの7つのメリット
Amazon Pollyを利用すると、以下のようなメリットを享受できます。
- 25言語に対応
- 合計95人の話者から音声を選択可能
- 音声変換が高速
- 低価格
- 音声のカスタマイズが容易
- 商用利用可能
- 幅広いプログラミング言語に対応
それぞれについて解説します。
25言語に対応
Amazon Pollyは日本語や英語だけでなく、アラビア語やフランス語など25の言語に対応しています。そのため、海外進出しているサービスでも言語の壁を作ることなく対応可能です。また、一つの言語の中でもさまざまなアクセントに対応しています。
英語を例にとると、アメリカ・オーストラリア・イギリス・アイルランドなど、合計8ヵ国のなまりの音声を生成可能です。
合計95人の話者から音声を選択可能
Amazon Pollyでは、一つの言語の中で複数の話者が選択できます。基本的に男性と女性どちらも利用でき、場面に応じて使い分けられます。日本語では、以下の4人の話者が利用可能です。
ミズキ | タクミ | かずは | ともこ | |
性別 | 女 | 男 | 女 | 女 |
標準TTS | あり | あり | なし | なし |
NTTS | なし | あり | あり | あり |
2024年3月現在、日本語はロングファーム音声に対応していませんが、対応可能な話者や音声の種類は増えていくかもしれません。
音声変換が高速
Amazon Pollyは、テキストデータを素早く音声データに変換できます。例えば、3,000文字以内のテキストデータは、即時に音声データをダウンロード可能です。
この速度を活かせば、ほぼリアルタイムのText to Speechが実現します。スピード重視で構築すれば、速報やリアルタイム配信に対応したシステムが利用できるようになるでしょう。
低価格
Amazon Pollyは無料利用枠を用意しているうえに、有料のサービスも低価格で提供しています。100万文字を音声に変換しても約590円(4.00ドル)と、企業としては無視できるほどの料金でサービスを提供しています。
また、従量課金制を利用しているため、利用が少ない場合は少額の投資で音声変換サービスを利用できます。利用機会が少ない企業でも安く利用できるでしょう。
音声のカスタマイズが容易
Amazon Pollyでは、場面に応じて出力する音声をカスタマイズできます。例えば、以下のようなカスタマイズが可能です。
- 特定の単語やフレーズを強調する
- 特定の場所に呼吸音を入れる
- ささやき声で話す
- ニュースキャスターのようにはきはき話す
ほかにも、話すスピードや間隔を空けるタイミングや長さも指定できます。Amazon Pollyが導入しているニューラルTTSは、より高度な音声合成を可能にします。これにより、話し言葉の流れ、アクセント、感情表現など、より微細な音声特性を再現できます。
用途に応じてカスタマイズすれば、状況に合ったテンポや話し方の音声データを生成できるでしょう。
商用利用可能
Amazon Pollyで出力した音声データは、公式ページで以下のように表明されているとおりサービス利用者が権限を有するため、商用利用が可能です。
Q: Polly レコーディングの所有者は誰ですか?
お客様と AWS との間で、Polly の出力はお客様に帰属します。第三者に帰属するテキストを Polly に入力する場合は、その権限の取得をお願いしています。
音声を利用した施策を安価に行えるため、動画配信サービスへの参入やテキスト読み上げ機能の搭載などを低リスクで実施できるでしょう。
幅広いプログラミング言語に対応
Amazon Pollyでは、JavaやC++、PythonなどのAWS ADK(AWSのソフトウェア開発キット)に含まれるプログラム言語で利用できます。普段からAWSで開発しているエンジニアは、新たな言語を習得することなくAmazon Pollyの開発に取り組めるでしょう。
また、Amazon PollyはHTTP APIが利用できるため、自社のアプリやウェブなどでもAmazon Pollyを活用できます。既存のサービスにも容易にText to Speechを導入できるでしょう。
Amazon Pollyを5分で使い始める方法ステップ
Amazon Pollyは、AWSで簡単に利用できます。ここでは、Amazon Pollyの利用方法を簡単に解説します。
利用開始から1カ月以内であれば、「スタンダード」で500万文字までのテキストが無料で音声に変換できます。登録から5分程度で利用し始められますので、使い勝手を知りたい方はぜひ試してみてください。
1.AWSアカウント作成
Amazon PollyはAWSのサービスの一つです。AWSを利用するにはAWSアカウントが必要ですので、アカウントを持っていない方は作成しましょう。
AWSアカウントは、AWSのサインアップページから作成できます。登録にはメールアドレスと電話番号、クレジットカードなどの支払い情報が必要です。
登録が完了すれば、上のような画面が出てきます。「AWSマネジメントコンソールにお進みください」を選択しましょう。
2.条件を指定してテキストを入力
AWSアカウントが作成できれば、AWSのコンソールホーム検索画面に「Amazon Polly」と入力し、Amazon Pollyを開きます。
3.テキストを音声に変換
次に、「Pollyを試す」を選択すると、テキスト読み上げ機能に移ります。
テキスト読み上げ機能で「エンジン・言語・音声・テキスト」を入力すれば、入力したテキストを音声に変換できます。
4.音声のダウンロード
画面右上の「ダウンロード」を選択すれば、音声のダウンロードも可能です。
Amazon Pollyの導入事例
Amazon Pollyは、日本の企業でもすでに活用されています。ここでは、山陽新聞社とエフエム和歌山の活用事例を解説します。
新聞記事の電子版読み上げ機能を実現(山陽新聞社)
山陽新聞社は、Amazon Pollyを利用することで、新聞の電子版読み上げ機能を月400円で実現しました。以前から同社には、主に高齢者から電子版の記事の読み上げ機能の要望が寄せられていました。
アナウンサーによる読み上げは多額のコストがかかりますが、Amazon Pollyを活用すれば月400円程度でAIアナウンサーを利用できたそうです。このように同社では、非常に低いコストで記事の読み上げ機能の搭載に成功しました。
読み上げているのはAmazon Pollyの音声ですが、山陽新聞の電子版では「瀬戸内あい」として親しまれています。また記事の読み上げ機能は電子記事だけでなく、気象予報にも対応しています。
テキストを扱う業種から、新聞社はAIアナウンサーを積極的に活用しています。山陽新聞社のほか、朝日新聞社や読売新聞社、日本経済新聞社などもAmazon Pollyを活用しています。
年間400~800円で24時間の無人放送(エフエム和歌山)
ラジオ番組を手がけるエフエム和歌山は、2017年よりAmazon Pollyを活用してニュースや天気予報を放送しています。同社のアナウンサーは「人工知能アナウンサー・ナナコ」として親しまれています。
同社はスポンサー収入のみで番組を運用しているため、人手を十分に確保できないという課題がありました。そこでAIアナウンサーを導入し、少ない人手でも運用できる体制を構築しました。
また、普段のニュースや天気予報だけでなく、24時間放送にもAIアナウンサーを採用することにより、アナウンサー不在時や災害時にも放送できるようになりました。同社は、AIアナウンサーの活用は災害時の人命救助にも役立つと考えています。
Amazon PollyとLLMの連携で新たな可能性
Amazon PollyとLLM(大規模言語モデル)による自然言語処理(NLP)が組み合わさることで、より洗練されたオーディオコンテンツの生成へと進化しています。
Amazon Pollyはテキストを自然に聞こえる音声に変換するサービスであり、主にテキストベースのデータをオーディオ形式に変換することに特化しています。一方、大規模言語モデル(LLM)は、文章生成、言語理解、質問応答システムなど、より広範な自然言語処理のタスクを実行する能力を持っています。
既に使われている活用事例として以下があります。
カスタマーサポートや教育コンテンツの作成
たとえば、大規模言語モデルを用いてユーザーからの質問に対する答えを生成し、そのテキスト回答をAmazon Pollyを使用して音声化することで、リアルタイムのオーディオフィードバックシステムを実現できます。このようなシステムは、視覚障害があるユーザーや、画面を見ることが難しい状況にあるユーザーにとって非常に有益です。
教育分野でのeラーニングコースやオンライン講座
大規模言語モデルがカリキュラムや学習資料のテキストを生成し、そのテキストをAmazon Pollyが音声化することで、学習者がテキストコンテンツを聴くことで学習できるオーディオブックやポッドキャスト形式の教材を提供できます。この連携により、よりアクセシブルで多様な学習方法を提供することが可能になります。
Amazon Pollyについてよくある質問まとめ
- Amazon Pollyとは?
Amazon Pollyは、テキストデータを音声データに変換するAWS(Amazon Web Services)のサービスです。ディープラーニング技術により、人間が話しているかのような流暢な音声を生成します。
これまで、音声を利用したコンテンツを高品質で作るには、アナウンサーやナレーターなどの人員が必要でした。しかし、Amazon PollyのニューラルTTSにより、話し言葉の流れ、アクセント、感情表現など聞き手にとってよりリアルな聞き取り体験を提供します。オーディオブック、バーチャルアシスタント、Eラーニングなど、様々な分野をより豊かで魅力的なものに変える可能性を持っています。
- Amazon Pollyの料金は?
Amazon Pollyは従量課金制であるため、利用した分しか支払う必要がありません。また、Amazon Pollyを初めて利用する方には無料利用枠があります。
ただし、NTTSやロングフォーム音声を利用する場合、料金は標準TTSに比べて3~25倍程度高くなります。以下がAmazon Pollyの料金の一例です。
標準TTS NTTS ロングフォーム音声 リクエスト1,000 件 約591円(4.00 USD) 約2,364円(16.00 USD) 14,780円(100.00 USD) 1件の文字数:1,000文字 約591円(4.00 USD) 約2,364円(16.00 USD) 14,780円(100.00 USD) リクエスト1万件 1.4円(0.01 USD) 7.3円(0.05 USD) 45.7円(0.31 USD) 1件の文字数:100文字 4.4円(0.03 USD) 14.7円(0.10 USD) 96円(0.65 USD) 一般的なメール 17.7円(0.12 USD) 70.9円(0.48 USD) 443円(3.00 USD) 上記のように、数千件のテキストデータを音声データに変換しても、日本円で(1ドル150円とすると)600円程度と、非常に安く利用できます。
まとめ
Amazon Pollyは低価格かつ高速でテキストデータを音声データに変換できるAWSのサービスです。従量課金制のため小規模利用にも適しています。
音声データの制作をナレーターや声優に依頼している企業は、Amazon Pollyを活用することで大幅なコストカットを実現できるかもしれません。
AI Marketでは
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp