rinna、「GPT」を活用した日本語音声認識モデル「Nue ASR」を商用利用可能ライセンスで公開
最終更新日:2024年05月17日
rinna株式会社は、2023年12月7日、LLM(大規模言語モデル)「GPT」を活用した日本語音声認識モデル「Nue ASR」を公開した。
rinnaは、「人とAIの共創世界」というビジョンに掲げてAI開発に取り組む企業だ。「Nue ASR」は、LLM(大規模言語モデル)の能力を活かすことで高精度な音声認識を実現したモデルであり、商用利用可能なライセンスで既に公開されている。
<本ニュースの10秒要約>
- 生成AI(ジェネレーティブAI)モデルの研究や人工知能によるデータ分析を強みとするAI企業・rinnaが開発
- 事前学習済みの音声基盤モデルと「GPT」で、高精度な日本語音声認識を実現した「Nue ASR」
- 音声認識モデルの学習コストを軽減、「GPT」構造のため最先端の手法も容易に導入可能
日本語のAI開発支援に取り組んで来たrinna
rinnaは、テキスト/音声/画像/動画などの生成AIモデルの研究開発や、人工知能によるデータ分析を強み
とするAI企業だ。研究成果である各種AI技術を活用し、様々なビジネス課題を解決するソリューションの開発・提供に取り組んでいる。また、フラグシップAI「りんな」の技術をもと、多様な「AIキャラクター」も創造。人とAIが共に生きる豊かな世界を目指している。
同社はまた、「GPT」「BERT」「HuBERT」「CLIP」「Stable Diffusion」などテキスト・音声・画像に関する事前学習済み基盤モデルも、2021年4月から公開。この取り組みは日本語のAI開発支援を目的としており、実際に多くの研究・開発者が利用することでダウンロード数は累計440万を超えた。最近では、事前学習された基盤モデルを組み合わせて、様々なタスクをこなすAIも開発されている。
OpenAI社の「Whisper」シリーズなどにも匹敵する性能
rinnaが今回公開した「Nue ASR」は、事前学習済みの音声基盤モデル「HuBERT」と、テキスト基盤モデル「GPT」を組み合わせた日本語音声認識モデルだ。「HuBERT」と「GPT」の間に畳み込み層を挟むことで、統合を実現した。
事前学習済みの基盤モデルを活用することで、「Nue ASR」は音声認識モデルの学習コスト軽減を実現。また学習した音声認識モデルは、商用利用可能なApache-2.0 Licenseで公開している。
テキスト生成については、この分野でデファクトスタンダードとなっている「GPT」構造を用いているため、活発に開発されている最先端の手法を容易に導入することが可能だ。認識率や処理速度についても、利用条件によってはOpenAI社の「Whisper」シリーズなどにも匹敵する性能を達成している。
人間とAIのコミュニケーションに貢献
rinnaは今回の「Nue ASR」開発を通じて、音声対話に必要となる音声認識/テキスト生成/音声合成の実験を一通り遂行できたと考えている。今後は、この開発過程で得た多くの知見を活かし、LLM(大規模言語モデル)のさらなる活用に向けて音声対話の研究/開発/提供を進め、AIの社会実装に取り組む予定だ。
同社は今後も、LLM(大規模言語モデル)を用いたテキスト生成/音声合成の研究・開発・提供を進め、人間とAIのコミュニケーションに貢献するとしている。
参照元:PRTIMES
音声認識の仕組みや活用事例を詳しく知りたい方はこちら、また音声認識に強いAI開発会社をお探しの方はこちらの記事もご参考ください。
AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp