Amazon Pollyとは？テキストtoスピーチを5分で実現？！導入事例・料金や対応言語・使い方・商用利用を徹底解説

最終更新日：2025年08月21日

記事監修者：森下佳宏｜BizTech株式会社代表取締役

Amazon Pollyとは？テキストtoスピーチを5分で実現？！導入事例・料金や対応言語・使い方・商用利用を徹底解説

動画や音声サービスのナレーションをAI音声で対応したいと考えている方も多いのではないでしょうか。

今回紹介するAWSの人気サービスAmazon Pollyは、低価格かつ高速なText to Speech（テキストデータを音声へ変換）を実現するツールとして注目されています。ディープラーニング技術により、まるで人間が話しているかのような流暢な音声を日本語、英語などで生成可能です。商用利用もできるため、ビジネスにも利用可能です。でも、いざ導入検討となると日本語対応、料金など検討が必要な点も多いかと思います。

本記事では、Amazon Pollyの料金や対応言語、日本企業の導入事例を解説。具体的な使い方も紹介していますので、使い勝手や精度を知りたい方は、本記事を参考にAmazon Pollyを試してみてはいかがでしょうか。

生成AIに強いAI会社の選定・紹介を行います

今年度生成AI相談急増中！紹介実績1,000件超え！

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超

完全無料・最短1日でご紹介生成AIに強い会社選定を依頼する

音声合成・音声認識に強いAI開発会社を自力で選びたい方はこちらで特集していますので併せてご覧ください。

1 Amazon Pollyとは?
2 Amazon Pollyの7つのメリット
3 Amazon Pollyを5分で使い始める方法ステップ
4 Amazon Pollyの導入事例
- 4.1 新聞記事の電子版読み上げ機能を実現（山陽新聞社）
- 4.2 年間400~800円で24時間の無人放送（エフエム和歌山）
5 Amazon PollyとLLMの連携で新たな可能性
- 5.1 カスタマーサポートや教育コンテンツの作成
- 5.2 教育分野でのeラーニングコースやオンライン講座
6 Amazon Pollyについてよくある質問まとめ
7 まとめ

Amazon Pollyとは?

Amazon Pollyは、テキストデータを音声データに変換するAWS（Amazon Web Services）のサービスです。ディープラーニング技術により、人間が話しているかのような流暢な音声を生成します。

これまで、音声を利用したコンテンツを高品質で作るには、アナウンサーやナレーターなどの人員が必要でした。しかし、Amazon PollyのようなText to Speechサービスを利用すれば、安価かつ簡単に音声データを入手できます。

Amazon Pollyに搭載されているシステム

Amazon Pollyには、以下の3つのシステムが搭載されています。

標準TTS（TTS：Text to Speech）: 基本的なテキストから音声への変換機能を提供します。
NTTS（ニューラルTTS）：ディープラーニングを活用し、より自然で感情表現に富んだ高品質の音声を生成します。
ロングフォーム音声：長時間のコンテンツでも聞きやすい、自然で表現力豊かな音声を提供します。

NTTS（ニューラルTTS）は、従来のテキスト音声変換技術（TTS）を進化させたもので、より高度な音声合成を可能にします。従来のテキスト音声変換技術は事前に収録された音声データを組み合わせることで、テキストを音声に変換していました。

それに対し、NTTSはディープラーニングを用いて人間の声や話し方の微妙なニュアンスを学習して自然で滑らかな音声の生成を行います。ニューラルTTSにより、話し言葉の流れ、アクセント、感情表現など聞き手にとってよりリアルな聞き取り体験を提供します。オーディオブック、バーチャルアシスタント、Eラーニングなど、様々な分野をより豊かで魅力的なものに変える可能性を持っています。

AIによる音声合成技術の仕組みをこちらの記事で詳しく説明していますので併せてご覧ください。

Amazon Transcribeとの違い

Amazon TranscribeとAmazon Pollyは、どちらもAmazon Web Services（AWS）が提供する音声関連のサービスです。Amazon Pollyが、テキストを自然な音声に変換する音声合成（TTS）サービスです。音声コンテンツの生成、ナレーションの作成、インタラクティブな音声応答システムの構築などに利用されます。

一方、Amazon Transcribeは逆に音声をテキストに変換する自動音声認識（ASR）サービスです。

Amazon Pollyの料金

Amazon Pollyは従量課金制であるため、利用した分しか支払う必要がありません。また、Amazon Pollyを初めて利用する方には無料利用枠があります。

ただし、NTTSやロングフォーム音声を利用する場合、料金は標準TTSに比べて3～25倍程度高くなります。NTTSシステムは、標準TTSに比べて顕著に高品質な音声を提供し、ロングフォーム音声機能により、長文の読み上げでも聞き手を飽きさせないリッチなオーディオ体験を実現します。

以下がAmazon Pollyの料金の一例です。

	標準TTS	NTTS	ロングフォーム音声
リクエスト1,000 件	約591円（4.00 USD）	約2,364円（16.00 USD）	14,780円（100.00 USD）
1件の文字数：1,000文字	約591円（4.00 USD）	約2,364円（16.00 USD）	14,780円（100.00 USD）
リクエスト1万件	1.4円（0.01 USD）	7.3円（0.05 USD）	45.7円（0.31 USD）
1件の文字数：100文字	4.4円（0.03 USD）	14.7円（0.10 USD）	96円（0.65 USD）
一般的なメール	17.7円（0.12 USD）	70.9円（0.48 USD）	443円（3.00 USD）

上記のように、数千件のテキストデータを音声データに変換しても、日本円で（1ドル150円とすると）600円程度と、非常に安く利用できます。

Amazon Pollyは従量課金制であるため、小規模な利用を考えている企業にも適しています。

無料枠もあり、Amazon Pollyへの初めてのリクエストから最大12カ月利用できます。各システムで利用できる文字数は以下の通りです。

標準TTS	NTTS	ロングフォーム音声
500万文字	100万文字	50万文字

12カ月という長い期間、これだけ多くの文字数を音声に起こすことができます。規模によっては、1年間全く料金を支払わずに利用できる企業もあるかもしれません。ツール選択で迷っている方は、無料利用枠を利用してAmazon Pollyを試してみるのもよいでしょう。

参考：https://aws.amazon.com/jp/polly/pricing/

Amazon Pollyが使用するAI技術は、ディープラーニングとテキストから音声への合成（TTS: Text-to-Speech）の進化した形態であるニューラルTTS（NTTS）に基づいています。このセクションでは、これらの技術の基本概念と、Amazon Pollyにおけるその応用について詳しく解説します。

生成AIに強いAI会社の選定・紹介を行います

今年度生成AI相談急増中！紹介実績1,000件超え！

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超

完全無料・最短1日でご紹介生成AIに強い会社選定を依頼する

Amazon Pollyの7つのメリット

Amazon Pollyを利用すると、以下のようなメリットを享受できます。

25言語に対応
合計95人の話者から音声を選択可能
音声変換が高速
低価格
音声のカスタマイズが容易
商用利用可能
幅広いプログラミング言語に対応

それぞれについて解説します。

25言語に対応

Amazon Pollyは日本語や英語だけでなく、アラビア語やフランス語など25の言語に対応しています。そのため、海外進出しているサービスでも言語の壁を作ることなく対応可能です。また、一つの言語の中でもさまざまなアクセントに対応しています。

英語を例にとると、アメリカ・オーストラリア・イギリス・アイルランドなど、合計8ヵ国のなまりの音声を生成可能です。

合計95人の話者から音声を選択可能

Amazon Pollyでは、一つの言語の中で複数の話者が選択できます。基本的に男性と女性どちらも利用でき、場面に応じて使い分けられます。日本語では、以下の4人の話者が利用可能です。

	ミズキ	タクミ	かずは	ともこ
性別	女	男	女	女
標準TTS	あり	あり	なし	なし
NTTS	なし	あり	あり	あり

2024年3月現在、日本語はロングファーム音声に対応していませんが、対応可能な話者や音声の種類は増えていくかもしれません。

音声変換が高速

Amazon Pollyは、テキストデータを素早く音声データに変換できます。例えば、3,000文字以内のテキストデータは、即時に音声データをダウンロード可能です。

この速度を活かせば、ほぼリアルタイムのText to Speechが実現します。スピード重視で構築すれば、速報やリアルタイム配信に対応したシステムが利用できるようになるでしょう。

低価格

Amazon Pollyは無料利用枠を用意しているうえに、有料のサービスも低価格で提供しています。100万文字を音声に変換しても約590円（4.00ドル）と、企業としては無視できるほどの料金でサービスを提供しています。

また、従量課金制を利用しているため、利用が少ない場合は少額の投資で音声変換サービスを利用できます。利用機会が少ない企業でも安く利用できるでしょう。

音声のカスタマイズが容易

Amazon Pollyでは、場面に応じて出力する音声をカスタマイズできます。例えば、以下のようなカスタマイズが可能です。

特定の単語やフレーズを強調する
特定の場所に呼吸音を入れる
ささやき声で話す
ニュースキャスターのようにはきはき話す

ほかにも、話すスピードや間隔を空けるタイミングや長さも指定できます。Amazon Pollyが導入しているニューラルTTSは、より高度な音声合成を可能にします。これにより、話し言葉の流れ、アクセント、感情表現など、より微細な音声特性を再現できます。

用途に応じてカスタマイズすれば、状況に合ったテンポや話し方の音声データを生成できるでしょう。

商用利用可能

Amazon Pollyで出力した音声データは、公式ページで以下のように表明されているとおりサービス利用者が権限を有するため、商用利用が可能です。

Q: Polly レコーディングの所有者は誰ですか?
お客様と AWS との間で、Polly の出力はお客様に帰属します。第三者に帰属するテキストを Polly に入力する場合は、その権限の取得をお願いしています。
出典：AWS「Amazon Pollyのよくある質問」

音声を利用した施策を安価に行えるため、動画配信サービスへの参入やテキスト読み上げ機能の搭載などを低リスクで実施できるでしょう。

幅広いプログラミング言語に対応

Amazon Pollyでは、JavaやC++、PythonなどのAWS ADK（AWSのソフトウェア開発キット）に含まれるプログラム言語で利用できます。普段からAWSで開発しているエンジニアは、新たな言語を習得することなくAmazon Pollyの開発に取り組めるでしょう。

また、Amazon PollyはHTTP APIが利用できるため、自社のアプリやウェブなどでもAmazon Pollyを活用できます。既存のサービスにも容易にText to Speechを導入できるでしょう。

Amazon Pollyを5分で使い始める方法ステップ

Amazon Pollyは、AWSで簡単に利用できます。ここでは、Amazon Pollyの利用方法を簡単に解説します。

利用開始から1カ月以内であれば、「スタンダード」で500万文字までのテキストが無料で音声に変換できます。登録から5分程度で利用し始められますので、使い勝手を知りたい方はぜひ試してみてください。

1.AWSアカウント作成

AWSアカウント作成

Amazon PollyはAWSのサービスの一つです。AWSを利用するにはAWSアカウントが必要ですので、アカウントを持っていない方は作成しましょう。

AWSアカウントは、AWSのサインアップページから作成できます。登録にはメールアドレスと電話番号、クレジットカードなどの支払い情報が必要です。

登録が完了すれば、上のような画面が出てきます。「AWSマネジメントコンソールにお進みください」を選択しましょう。

2.条件を指定してテキストを入力

AWSアカウントが作成できれば、AWSのコンソールホーム検索画面に「Amazon Polly」と入力し、Amazon Pollyを開きます。

条件を指定してテキストを入力

3.テキストを音声に変換

次に、「Pollyを試す」を選択すると、テキスト読み上げ機能に移ります。

Pollyを試す

テキスト読み上げ機能で「エンジン・言語・音声・テキスト」を入力すれば、入力したテキストを音声に変換できます。

4.音声のダウンロード

画面右上の「ダウンロード」を選択すれば、音声のダウンロードも可能です。

Pollyダウンロード

生成AIに強いAI会社の選定・紹介を行います

今年度生成AI相談急増中！紹介実績1,000件超え！

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超

完全無料・最短1日でご紹介生成AIに強い会社選定を依頼する

Amazon Pollyの導入事例

Amazon Pollyは、日本の企業でもすでに活用されています。ここでは、山陽新聞社とエフエム和歌山の活用事例を解説します。

新聞記事の電子版読み上げ機能を実現（山陽新聞社）

山陽新聞社は、Amazon Pollyを利用することで、新聞の電子版読み上げ機能を月400円で実現しました。以前から同社には、主に高齢者から電子版の記事の読み上げ機能の要望が寄せられていました。

アナウンサーによる読み上げは多額のコストがかかりますが、Amazon Pollyを活用すれば月400円程度でAIアナウンサーを利用できたそうです。このように同社では、非常に低いコストで記事の読み上げ機能の搭載に成功しました。

読み上げているのはAmazon Pollyの音声ですが、山陽新聞の電子版では「瀬戸内あい」として親しまれています。また記事の読み上げ機能は電子記事だけでなく、気象予報にも対応しています。

テキストを扱う業種から、新聞社はAIアナウンサーを積極的に活用しています。山陽新聞社のほか、朝日新聞社や読売新聞社、日本経済新聞社などもAmazon Pollyを活用しています。

年間400~800円で24時間の無人放送（エフエム和歌山）

ラジオ番組を手がけるエフエム和歌山は、2017年よりAmazon Pollyを活用してニュースや天気予報を放送しています。同社のアナウンサーは「人工知能アナウンサー・ナナコ」として親しまれています。

同社はスポンサー収入のみで番組を運用しているため、人手を十分に確保できないという課題がありました。そこでAIアナウンサーを導入し、少ない人手でも運用できる体制を構築しました。

また、普段のニュースや天気予報だけでなく、24時間放送にもAIアナウンサーを採用することにより、アナウンサー不在時や災害時にも放送できるようになりました。同社は、AIアナウンサーの活用は災害時の人命救助にも役立つと考えています。

Amazon PollyとLLMの連携で新たな可能性

Amazon PollyとLLM（大規模言語モデル）の連携で新たな可能性

Amazon PollyとLLM（大規模言語モデル）による自然言語処理（NLP）が組み合わさることで、より洗練されたオーディオコンテンツの生成へと進化しています。

Amazon Pollyはテキストを自然に聞こえる音声に変換するサービスであり、主にテキストベースのデータをオーディオ形式に変換することに特化しています。一方、LLM（大規模言語モデル）は、文章生成、言語理解、質問応答システムなど、より広範な自然言語処理のタスクを実行する能力を持っています。

既に使われている活用事例として以下があります。

カスタマーサポートや教育コンテンツの作成

例えば、LLM（大規模言語モデル）を用いてユーザーからの質問に対する答えを生成し、そのテキスト回答をAmazon Pollyを使用して音声化することで、リアルタイムのオーディオフィードバックシステムを実現できます。このようなシステムは、視覚障害があるユーザーや、画面を見ることが難しい状況にあるユーザーにとって非常に有益です。

教育分野でのeラーニングコースやオンライン講座

LLM（大規模言語モデル）がカリキュラムや学習資料のテキストを生成し、そのテキストをAmazon Pollyが音声化することで、学習者がテキストコンテンツを聴くことで学習できるオーディオブックやポッドキャスト形式の教材を提供できます。この連携により、よりアクセシブルで多様な学習方法を提供することが可能になります。

生成AIに強いAI会社の選定・紹介を行います

今年度生成AI相談急増中！紹介実績1,000件超え！

・ご相談からご紹介まで完全無料
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超

完全無料・最短1日でご紹介生成AIに強い会社選定を依頼する

Amazon Pollyについてよくある質問まとめ

Amazon Pollyとは？

これまで、音声を利用したコンテンツを高品質で作るには、アナウンサーやナレーターなどの人員が必要でした。しかし、Amazon PollyのニューラルTTSにより、話し言葉の流れ、アクセント、感情表現など聞き手にとってよりリアルな聞き取り体験を提供します。オーディオブック、バーチャルアシスタント、Eラーニングなど、様々な分野をより豊かで魅力的なものに変える可能性を持っています。

Amazon Pollyの料金は？

Amazon Pollyは従量課金制であるため、利用した分しか支払う必要がありません。また、Amazon Pollyを初めて利用する方には無料利用枠があります。

ただし、NTTSやロングフォーム音声を利用する場合、料金は標準TTSに比べて3～25倍程度高くなります。以下がAmazon Pollyの料金の一例です。

	標準TTS	NTTS	ロングフォーム音声
リクエスト1,000 件	約591円（4.00 USD）	約2,364円（16.00 USD）	14,780円（100.00 USD）
1件の文字数：1,000文字	約591円（4.00 USD）	約2,364円（16.00 USD）	14,780円（100.00 USD）
リクエスト1万件	1.4円（0.01 USD）	7.3円（0.05 USD）	45.7円（0.31 USD）
1件の文字数：100文字	4.4円（0.03 USD）	14.7円（0.10 USD）	96円（0.65 USD）
一般的なメール	17.7円（0.12 USD）	70.9円（0.48 USD）	443円（3.00 USD）

上記のように、数千件のテキストデータを音声データに変換しても、日本円で（1ドル150円とすると）600円程度と、非常に安く利用できます。

まとめ

Amazon Pollyは低価格かつ高速でテキストデータを音声データに変換できるAWSのサービスです。従量課金制のため小規模利用にも適しています。

音声データの制作をナレーターや声優に依頼している企業は、Amazon Pollyを活用することで大幅なコストカットを実現できるかもしれません。12カ月の無料利用枠もありますので、試しに導入してみてはいかがでしょうか。

作成・監修者

森下佳宏｜BizTech株式会社代表取締役

AI Market 運営、BizTech株式会社代表取締役｜2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、現場のお客様の課題ヒアリングや企業のご紹介を5年以上実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応し、参加累計5,000人を超えるAIイベントを主催。AIシステム開発PM歴8年以上。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。（JDLA GENERAL 資格保有）
▶ 監修者の実績・経歴を詳しく見る

𝕏：@ymorishita

AI Market 公式𝕏：@AIMarket_jp
Youtubeチャンネル：@aimarket_channel
TikTok：@aimarket_jp

運営会社：BizTech株式会社

掲載記事に関するご意見・ご相談はこちら：ai-market-contents@biz-t.jp

カテゴリ

タグ

お電話で無料相談

WEBから無料相談（60秒で完了）

今年度問い合わせ急増中

無料で相談する

Amazon Pollyとは？テキストtoスピーチを5分で実現？！導入事例・料金や対応言語・使い方・商用利用を徹底解説