最終更新日:2023-03-11
AI(人工知能)音声認識の仕組みとは?技術や企業の活用事例を紹介

AI(人工知能)が人の話す言葉を音声として認識し、これをテキスト化する技術が音声認識です。単に入力を簡単にするだけではなく、AIが言語を理解することでコンピューターが人と会話をすることもできます。声で作動するスマートスピーカーやコールセンターでのボイスアシスタントなどは、すでに実用段階に入っている用途です。
この記事ではAIによる音声認識とその技術、そして様々な用途について解説します。
また、AI MarketではAIによる音声認識に強い会社の選定や適切な会社の紹介を行っています。会社選定や依頼方法がわからないような場合には、AI Marketの専門コンサルタントが無料でサポートいたしますので、いつでもお気軽にご相談ください。
目次
AIによる音声認識とは
音声認識は人が発する言葉を音として入力し、これをAIが言語に変換することでテキストデータ化する技術です。通常のキーボードを使う場合に比べてコンピューターへのデータ入力が極めて速く、タイプミスという誤入力が起こらないことから非常に有効な入力方式として活用されています。
入力デバイスがそのまま動作機器となることからデバイスのサイズが小さくできることも魅力。ビジネス用途だけでなく、個人や家庭用の機器にも続々と導入が進められています。スマートフォンのボイスコントロールや家庭用のスマートスピーカーなどですでにお馴染みの方も多いでしょう。
Google HomeやAlexaのような言葉で指示するだけで音楽を再生したり調べ物をしてくれたりするライフアシスタントは、日本語を含む多数の言語に対応してくれます。ディクテーションでは言葉をそのまま漢字を含む文字データに書き起こしてくれますし、人の声を聴き分けて会話の構成を理解することもできます。
業務効率の改善や生活スタイルの革新を進めるための鍵として、さらにAIと人とのインターフェイスにおいて主要な役割を担うことになるでしょう。
AI音声認識開発に使用される技術と仕組み
音声認識の大きな流れとしては、発生された言語をデータ化したうえでどの音声と近いのかを照合し、音を組み合わせ単語と照合し、文章を組み立てます。これにディープラーニングが加わり、単語の予測などが可能になります。ここで利用されている仕組み、技術について詳しくご説明します。
音響分析
音響分析は、人が発生した言葉をマイクを通じて音声データとして聞き取ることで可能です。この時に声の強弱や音と音の間隔、抑揚をデータとして収集し、特徴量を抽出しコンピューターが認識できるデータに変換します。
音響モデル
この波形データに対してニューラルネットによりその音素を分析して言語に変換できる音響モデルとして出力。音の繋がりを文字列に置き換えるための母音と子音に分解し、対応する文字記号(アルファベットなどの文字表記)の表象に変換します。
例えば、「こんにちは」という音声の場合、人であれば誰の言葉でも「こ」で認識できます。しかし、厳密には前後の単語や高低などで音には微妙に違いがあります。そのため音響モデルでは音響分析で抽出した特徴量を元に、「K-O」という音素になるようマッチングさせる必要があります。
発音(音声)辞書
発音辞書は、音響モデルでマッチングした音を組み合わせて、膨大な情報データベースの中から単語として認識させます。例えば、「こ」と「ん」、「に」、「ち」「わ」を認識したら、それを組み合わせて「こんにちは」という単語を認識します。
言語モデル
言語モデルでは、発音辞書で認識した単語や音響モデルで認識した音を組み合わせ、音素の繋がりが言語として成立するように選択します。この際、事前に膨大な量のデータから単語のつながりの出現率などを算出して単語を文章化させます。言語モデルには、「隠れマルコフモデル」やN-Gramモデルなどがよく利用されます。
単語リストと意味予測
言語によっては音素に対応する単語が複数あります。AIは単語同士の結びつきと使用頻度、前後の文節間の単語の関連性を学習し、適切な組み合わせを選別。特に日本語は音素の構造が単純で同音異義語が多く、AIによる学習が難しい言語です。
AIによる意味予測を伴う言語選択により、「しきをたてる」「しきがたかい」「しきがちかい」はそれぞれ「式を立てる」「士気が高い」「死期が近い」とテキスト化されます。
音声認識と機械学習
音声認識の実現のためにAIの学習機能が活用されているプロセスに注目してみましょう。
音素のテキスト化
音響モデルを出力するにあたって、分析された波形がどの音素に対応するかを決定するにはAIの学習機能が役立っています。母音の発音が崩れていたり、「ち」と「し」、「ひ」と「し」など子音が入れ替わったりした場合でも適切な音素の選択を行う必要があります。
これはその後の言語モデルへの連結において、選択できる単語の種類を限定するための音素情報にもなります。この場合、「近い」「誓い」「地階」「司会」「視界」「歯科医」などは相互に置き換え可能な単語グループとなり、音声の抑揚や周囲の単語との関連性をAIが学習して選択するのです。
単語の意味予測と自然言語
人が話す言語を「自然言語」と言います。私たちが日常に喋る言葉です。自然言語は機械的な言語と異なって、様々な例外や曖昧さを持っており、また文法的に間違った表現も除外されません。単語の選択や言葉の意味する内容は、話し手の持つ文化や属する時代・地域によっても変化するため定式化が難しく、コンピューターが扱うのが難しい言語です。
AIが自然言語を深層学習により学び取るプロセスを自然言語処理(Natural Language Process: NLP)と言います。簡単に説明するとNLPは文章を単語、文法、意味、文脈のそれぞれのプロセスに分け、各段階について深層学習により定式化して出力します。
しかしながら自然言語における意味や文脈の解析はルール化が非常に難しい分野です。指示語の多用や語の省略、比喩などは文化背景や実体験の共有に基づいている場合が多く、現在もAIの深層学習における最先端分野の一つです。
自然言語処理については、自然言語処理(NLP)の仕組みとは?できることや活用事例の記事にて詳しく説明していますので、あわせてご確認ください。
AI音声認識の用途とは?
AIによる音声認識はすでに様々な形で私たちの身の回りに実装されています。ここでは、そのうちの代表的なものをいくつか見てみましょう。
会話型AI
AIと人間が会話をする形で作業を進めるロボットが会話型AIです。電話による顧客対応システムとしてコールセンターなどで用いられています。一般的な質問であれば会話型AIのみによって問い合わせに対応することもできます。ボイスボットなどもこの声だけのAIの一つのタイプでしょう。
ボイスボットの仕組み、導入事例はこちらの記事で紹介していますので併せてご覧ください。
会話型AIにボディをつけた受付ロボットやペットロボットなどにも、声に対応して情報やサービスを提供する会話型AIが内蔵されています。AIによる音声感情分析の仕組み、注意点、活用シーンについてはこちらの記事で分かりやすく解説しています。
議事録作成
音声認識により言語として認識された音素をテキスト化して出力するサービスとして、議事録作成AIがあります。音声認識AIを会議に参加させておけば、会議終了と同時に議事録が完成。学習を重ねれば、業界用語や社内の特殊な言い回しなども聞き取ることができるようになります。
人が発する言葉をテキストにして残すという業務はさまざまな場面で求められる機能です。医師の診療に同席してカルテを作成したり、通訳者の言葉を聞き取って映画の字幕を記述したりしていくような役割も実現されています。
翻訳
言語モデルを通して文章を理解できれば、AIによる自動翻訳が可能になります。単語レベルや定型の表現であれば会話をそのまま他言語に置き換えることも可能でしょう。ただし、私たちが一般的に話す言葉(自然言語)をそのまま理解して翻訳するのは現在のAIではまだ難易度が高いのが実情です。
法人向けAI翻訳サービスや気になる精度・メリットの記事では、AI翻訳について詳しく解説していますので、あわせてご覧ください。
異音検知
製造ラインでの設備や機械類の稼働時の異音を検知し、故障や事故を未然に防ぐ異音検知にもAIによる音響認識が用いられています。人の話す言葉とは違いますが、入力された音響を分析し、波形の違いから機械の状態を認識することでその異常を察知することができます。
AIアシスタント
音声でコンピューターを作動させるインターフェースとしての音声認識は、スマートフォンやスマートスピーカーでおなじみの方も多いでしょう。iPhoneに搭載されているSiriやMicrosoftのCortana、家庭用AIのGoogle HomeやAlexaは利便性の高いAIアシスタントとして一般的に使われています。
AI音声認識サービス【導入・活用事例】
ここでは、実際にAI音声認識サービスを活用した企業の事例について、いくつか紹介します。
ProVoXT(株式会社アドバンスト・メディア)
ProVoXTはクラウド型の議事録作成支援サービスを手掛けています。従来議事録作成には大きな負担がかかったり、専用の音声認識端末が必要でした。しかし、AIによる音声認識サービスを利用すれば、インターネットがあればどこでも手軽に利用できるため、人件費やコストを削減したり、誰でも利用できるなど幅広い運用が可能になりました。
沖縄県庁
沖縄県町で限られた行政資源の元でより大きな成果を上げるためのプログラムの一環として、議事録作成の自動化対策として「ProVoXT」が導入されました。議事録作成は、どんな部署、業務でも必要であり、また、スピーカー等機材がなくても利用できるため、全庁で大幅な業務削減に繋がりました。
岩手県 一関市役所
岩手県一関市役所では、議事録作成に会議時間の6-10倍以上時間費やしておりました。また、開示するにも時間を要していました。そこで「ProVoXT」を導入したところ、職員の議事録作成時間を費やす時間が減り、作業に対するストレスも大幅に減りました。
AmiAgent(株式会社アドバンスト・メディア)
AmiAgentは、音声対話、チャットボット、自動電話応答など様々なチャネルで音声、テキストに自動対応するシステムです。クライアント毎に業務情報を学習させることで、お客の音声を自動認識に合わせ得た行動な音声対話を実現します。また、音声だけでなく、LIVE2DやMMDによる高精度な描画エンジンで、クライアントのブランドイメージに合わせたキャラクターも設定可能です。
株式会社三菱UFJ銀行
株式会社三菱UFJ銀行はスマートフォンアプリで音声認識技術や意図解釈技術を用いて、お客様からのお問い合わせに対応するバーチャルアシスタントを開発しました。バーチャルアシスタントは、お客様の質問の意図を理解してホームページに掲載されている内容であれば適切な内容を選択し回答するなど、お客様は普段どおりの話し方で楽しく問い合わせができるため、ストレスなく利用できます。
株式会社レオパレス21
レオパレス21が展開するLEO SUPPORTにおいて、マスコットキャラクターであるレオパリスくんが入居者への相談やサービスや問い合わせ、手続き等に対して回答してくれるコンテンツを制作しました。レオパリスくんの回答は膨大に蓄積された相談や質問を元に構築され、AI対話エンジンにより、対話を重ねていくことでより精度を高めます。
VContact(Hmcomm株式会社)
VContactは、Hmcomm株式会社が提供するコンタクトセンター向けAI音声認識ソリューションです。お客様との通話を自動でテキスト化したり、FAQを表示したり、感情分析、顧客情報の管理など様々なオプションがつけられます。
ニッテレ債権回収株式会社
全国5拠点250箇所規模のコールセンターをもつニッテレ債権回収株式会社は、法律の点からも会話内容を正確に記録する必要でしたが、通話時間よりも長くかかり多大な労力、時間がかかっていました。そこでVContactを導入しました。VContactを導入した結果、特に通話時間が短い電話では修正がほぼいらず、長い電話でも作成時間に比べると大きく時間を節約できたため、コールセンターの業務が大きく効率化が進みました。
コールセンターでのAIによる音声認識システム導入事例についてはこちらの記事で特集しています。
コールセンターへのAIシステム導入を喫緊で検討されている方は、こちらでコールセンター向けおすすめAIサービスを紹介しますのでご覧ください。
株式会社協和
株式会社協和は全国4拠点100席規模のコールセンターを構える通販会社です。まだ8割近く電話での注文の中で、どのように情報を取得するのか、またどのように顧客管理に使うのかという課題がありました。そこでVContactを導入した結果、リアルタイムで全文テキスト化し構造的データを取得し、お客様情報の自動帳簿入力することでオペレーターのPCスキルに依存しない仕組みを構築することが出来ました。
コールセンターでAIチャットボット導入事例についてはこちらの記事で特集しています。
RECAIUS(東芝デジタルソリューションズ株式会社)
RECAIUSは、東芝デジタルソリューションズが提供するコミュニケーションAIです。音声認識、音声会話、対話、画像認識技術を融合して作成しました。その結果、ものづくり現場において設定したワードで機器が作動しハンズフリーで操作できる機能や保守点検や警備などフィールド業務の効率化などを実現します。
キューアンドエー株式会社
キューアンドエー株式会社は、チャットボットを導入したものの、FAQの作成やメニュー作りに人手も時間もかかりすぎるという課題がありました。そこでRECAIUSを導入し、FAQの生成を行った結果、人での作業時間の半分に短縮でき、生成工数や生成率の予測も可能になりました。
株式会社ゲームアディクト
ダービースタリオンでは、初めて音声実況を搭載しました。音声合成技術を用いることで、プレイヤー自身が命名した競走馬を自然な声でレース実況でアナウンスされ、より臨場感あふれるゲーム体験を可能にしました。
音声合成の仕組みや技術活用事例については、こちらの記事で解説しています。
omnis(丸紅情報システムズ株式会社)
omniusはGoogle Cloudの機械学習のエンジンを活用した音声認識システムであり、FAQ・要約・感情分析などが可能です。また、クラウドで利用できるため、設備投資を抑え低コストで運用可能です
大東建託株式会社
大東建託株式会社は従来各営業所で対応していたお客様の問い合わせ対応をサポートセンターに一元化し、業務負荷の軽減を目指しました。音声認識のテキスト化、AIによるFAQ表示により、通話時間を20%、テキスト化時間も60%短縮できました。
AI音声認識の課題
AIによる音声認識は非常に注目度の高い技術で、現在も技術の進歩が著しい分野です。一方で言葉による情報は極めて多種多様なため、AIと人とのスムーズなコミュニケーションを達成するには超えるべき課題も多く残されています。
学習データの収集
これまでのコンピュータが扱うデータは、数値もしくはテキストデータがほとんどでした。最近は画像認識についてもAIの活用が進められ、インターネットでは大量の画像データが日々アップされています。こういったデータに比べて音声データはデジタル化された音源データが乏しく、AIによる機械学習のためのデータベースの入手が難しい点が重要な課題です。
個別チューニングへの対応
同じ言葉を話す場合でも話す人や地方、時代によって細かい違いがあります。今後はAIによる音声認識の活用にあたって、ユーザーの特性にあわせて個別のチューニングが必要となるケースが多くなると予測されています。方言や訛り、業界用語やスラングなどへの対応は今後の課題の一つです。また、声の特徴から性別を判定して言葉の選び方を予測するような機能も実現が期待される技術の一つです。
ノイズのある環境での音声認識
人の耳は騒音のなかでも雑音をフィルタリングして、相手の声だけを言葉として聞き取ることができます。また、大勢の人が同時に話している中から、自分の知人の声だけを選択して会話をすることも自然にやってのけます。こういったノイズへの対処は現在のAIではまだ不十分です。
波形の特徴から言葉とノイズを分離したり、マイクから入力された言葉をフロントで処理して特定の声だけを認識するといった機能の実現に向けて、現在研究が進められています。
AI音声認識サービスの将来性
音声認識の精度が高まることにより、今後活躍の場はより一層拡大していくとも思われます。
翻訳精度の向上
音声認識を活用して機械翻訳を行うことで外国人との会話もスムーズにできるようになります。
緊急時の自動運転
音声だけでなく、心拍や血流の音も認識する研究が進んでいます。これにより、例えば車のドライブ中、運転中に心臓発作が起きた場合、心拍を認識し自動運転に切り替えるなど安全を確保できます。
音声認識のほかにも自動運転に用いられるAI技術、現状の問題点についてはこちらの記事で解説しています。
音声だけで買い物ができる
音声認識による検索の精度も高まっている結果、話しかけるだけで買い物ができ、は委託してくれることなどがが可能になり、より便利に利用できます。
AI音声認識を使った開発は代行会社へ
AIによる音声認識では、多くの場合ユーザー個別の状況に沿ったカスタマイズが求められます。学習データの入手が鍵となりますが、モデルとなる音声を自前で作成することは難しく、また、公開されているデータセットもほとんどないのが現状です。
AIによる音声認識システムを構築するにあたっては、データセットの準備や入手、求められる出力のタイプに合わせた処理の選定や機械学習の進め方など、検討するべき多くの条件があります。
導入を検討している案件があれば、最適なAI開発会社の紹介を行っているAI Marketをぜひご活用ください。開発コストなどの情報を含めて、専門コンサルタントが画像認識とデータセットに強い開発会社の選定を無償でサポートいたします。
