最終更新日:2023-09-27
教師あり学習とは?教師なし学習との違い・代表的アルゴリズムと4つの活用方法

様々な状況で社会への実装が進められているAI(人工知能)。その重要な機能の核となり、注目をされているのが機械学習(マシンラーニング)です。この機械学習というAIの仕組みには大きく「教師あり学習」と「教師なし学習」、そして「強化学習」と呼ばれる3つのタイプがあります。
この記事ではこのうち、主要な学習様式である「教師あり学習」について説明します。
強化学習についてはこちらの記事で分かりやすく解説していますので併せてごらんください。
また、AIとはなにか?、基本的な仕組みからビジネス活用事例などを学べる初心者向けAI完全解説記事はこちらです。
また、AI Marketでは、AI開発会社の選定サポートや適切な会社の紹介も行っています。AI開発会社の選定に迷ったり、依頼方法がわからなかったら、AI Marketの専門のコンサルタントが適切な会社選定を無料でサポートしますので、いつでもお気軽にご相談ください。記事には書けない費用感なども含めてご案内致します。
プロ厳選!AI開発に強い開発会社では、教師あり学習を用いたAI開発会社を紹介しています。あわせてご覧ください。
目次
教師あり学習とは
教師あり学習ではAIに与える学習データについて、求められる正解を導くためのサンプルデータが与えられます。AIはこの、いわば例題を解くことでどのように学習すればよいかの方向性を得ることができます。
AIによる、教師あり学習の課題解決には大きく分けて分類と回帰があります。
分類問題は与えられるデータから得られる出力がいくつかのカテゴリーであるもの。回帰とは出力が値となる場合です。
AIの学習は、用意された正解データを処理することによってAIのアルゴリズムを教育していき、十分な正答率を実現するまで修正を繰り返すことで学習が完了するプロセスになります。
ディープラーニングと教師あり学習
AIは与えられたデータに対して事前に処理するプログラムがない場合でも、AI自体が学習することによって必要な処理を実施できるコンピュータです。このAIが学習する過程を「機械学習」と呼びます。
機械学習の種類、用いられるアルゴリズムをこちらの記事で特集しています。
機械学習にはいくつかのやり方がありますが、現在多くのAIで採用され効果的な結果を得ているのが深層学習(ディープラーニング)という手法です。
これは生物の神経系の反応を模した「ニューラルネットワーク」というデータ処理法を応用したもの。さまざまなデータの組み合わせを重層化し、データ間の関係に重みづけをすることでそれぞれのデータの重要性を評価することができるようにするものです。
入力データと出力の関係があらかじめ判明していれば、その間の判断基準をAIに学習させることができます。これが「教師あり学習」です。
入力データによって出力が変わるケースなど出力があらかじめ定まっていない場合には正解データが存在しないため、「教師なし学習」という手法がとられます。
入力データはあるがその回答を完全に作るには大変なコストや時間がかかるような場合には、一部のみ正解データを作ってAIの学習を進めることがあります。実際の状況ではこのようなケースは珍しくありません。これは一般的に「半教師あり学習」と呼ばれます。
教師あり学習、教師なし学習の違い
ディープラーニングの2つの学習方法、教師あり学習と教師なし学習の違いについて見てみましょう。
教師あり学習、教師なし学習を含むAIモデルの種類、作成の注意ポイントをこちらの記事で詳しく説明していますので併せてご覧ください。
教師あり学習のメリット・デメリット
有効な正解データが多数存在するとき、教師あり学習は簡単で有効なアルゴリズムを得られます。
また、あるデータを特定のデータ出力に結び付けるようにラベリングをすることが容易なので、解答にたどり着くまでの作業領域を効果的に選ぶことができ、時間短縮が可能な点も長所です。
一方で正解を導くデータが多数存在することが教師あり学習の条件であり、時にこのようなデータを集めることに大変な時間やコストがかかることがあります。
特に学習データの中に誤ったデータが紛れ込んでいると、AIが正しい答えと誤った答えを判別できなくなるおそれがありますので注意が必要です。AIの処理精度が学習データの信頼性に大きく依存することがリスクといえます。
尚、この教師データを作成する工程をアノテーションと呼びます。アノテーションの詳細については、AI開発におけるアノテーションとは?意味や種類、管理方法を徹底解説!の記事で紹介していますので、ぜひご参考ください。
教師なし学習のメリット・デメリット
教師なし学習はAIが学習するための正解データを利用せずに、与えられたデータの中に見つかる傾向や区分を発見できることが最大のメリット。事前に正解データを入手する必要がないため、より広い課題に対して使用できる学習方法です。
ただし、教師なし学習では学習の結果が正しいものである保証はありません。もともとのデータに不適当な偏りがあると、AIが生成する処理は利用者が望まないような非常にバイアスのかかった結果となることも考えられます。
教師あり学習のアルゴリズム
AIがデータを学習するには、データ間の関係を解くための数学的アルゴリズムが用いられています。教師あり学習に使われる代表的なアルゴリズムをいくつか紹介しましょう。
一次相関
与えられた条件となるデータ一つに対して求められる結果となるデータ一つが定まり、両者の関係が一次関数で表記できる場合です。回帰分析の1つで、線形相関、線形回帰などとも呼ばれます。
入力値と出力値はy = ax+bで表すことができます。
理解しやすい予測モデルとして古くから使われてきました。
回帰の問題であれば入力値と出力値の間の関係を解くことになります。家の広さと賃貸料の関係や今日の気温と商店の販売額の関係など、直接の関係が想定しやすいケースで有効です。
ロジスティックス相関
ロジスティック関数という曲線的なモデルを使うアルゴリズムです。一次相関の場合に比べて2つのデータが相互に影響するような場合に有効なモデルで、それぞれのデータは確率的に表現されます。
一方のデータが大きくなる度合に応じてもう一方の増え方が変わったり、ある範囲を超えると急に大きくなったりするような、連続だが一様でない場合を対象とするときによく使われます。
生活習慣とガンの発症率の関係やスマートフォンの保有率と新規顧客件数など、現実の課題に対する対処に有効性が高い数学モデルです。
サポートベクターマシン
主に分類問題で力を発揮するパターン認識のアルゴリズム。2つのカテゴリに属するデータの特性を識別する能力が高く、未学習のデータにアルゴリズムを適用することに優れているモデルです。
複数の属性をもとにデータを座標空間中にプロットし、異なるカテゴリのデータ群を分割する平面を見つけることで有効な分類方法を作り出します。
フェイスリコグニションや筆跡鑑定、臨床でのガン細胞の検知など、複数の要素が複雑に絡み合った条件下でのデータ認識に活用されています。
単純ベイズ法
統計学におけるベイズの定理に基づくモデルで、サンプルとなるデータが少ない状況でも効率よく機械学習を進めることができる方法として利用されています。
2つのグループに属するデータがお互いに独立(一方のデータによってもう一方が影響されない)でありながら共通の別のデータとの関係でつながっているという状況で、2つのデータの関係を確率的に処理するアルゴリズムです。
メールのスパム検知や感受性分析、自然言語の処理など、学習の期間が短いプロセスで高速処理ができます。
K近傍法
K近傍法はパターン認識で用いられます。アルゴリズムはシンプルで、予測したい値を入力すれば、特徴量と近い距離にあるデータで多数決をとって、結果を予測値とするアルゴリズムです。
時系列に対するデータに対して距離を定めて、その距離から異常値なのかどうかを判断します。シンプルでわかりやすいアルゴリズムであり、特に小規模なデータセットに対しては高い精度を発揮します。
決定木分析
決定木分析は、要素から結果を予測する樹木型のデータ分析の手法です。数学的には回帰分析と似ていますが、決定木分析は「イエスかノー」の2択です。そのため、シンプルに結果の予測が可能であり、データの数が少なくても行えます。目的変数に影響する説明変数を明らかにし、樹木図を作成する手法で、説明変数の結果を分岐させていくことで視覚的に理解しやすいメリットがあります。
その他
上記に紹介した方法の他に教師あり学習で用いられるアルゴリズムとしては以下のようなものが挙げられます。
- ランダムフォレスト
- 勾配ブースティング法
- 次元削減法
なお、ここで紹介したアルゴリズムは教師あり学習でのみ使われるものではありません。数学モデルによっては処理方法を変えることで教師なし学習でも使われているものもあります。
AIの予測分析に使われる基本的な手法についてはこちらの記事で詳しく説明しています。
教師あり学習の活用事例
教師あり学習を用いたAIのディープラーニングの事例として、具体的な用途を紹介します。
スパム検知
教師あり学習の用途として広く活用されている分類アルゴリズムの一つ。最初にいくつかのメールをスパムメールとそうでないメールに分ければ、その後に受け取った新しいメールの中からスパムメールを検出し、スパムフォルダーに分けるアルゴリズムをAIが自動的に生成してくれます。
機械学習により生成した言語モデルを活用したAIのパターン認識アルゴリズムです。情報セキュリティ分野では今後もAIの異常検知アルゴリズムの開発が期待されています。
分類作業
複数の要素間の関係から対象データがどのグループに属するかを判断する分類作業は教師あり学習の強みを生かせる用途です。サポートベクターマシンや単純ベイズ法を用いた教師あり学習のアルゴリズムが活用されています。
過去のデータから将来の機器の故障を予測するモデルや臨床医療の分野における病気の有無判定、ニュース記事の自動分類などビジネス分野での情報分析に広く実用化されています。
画像認識
画像認識は、ディープラーニングでのニューラルネットワーク処理により精度が大幅に改善した分野です。読み込んだ画像や動画を教師あり学習の対象として処理することで、画像の分類や異常なイメージの検出が可能となります。
フェイスリコグニションによる個人判別や医療現場でのスキャン画像からのガン細胞の検知などの他、スキャナーで読み込んだ文字画像を言語情報と結びつけてその文章を「読み」、内容に従ってテキストをラベリングするようなことも可能です。
画像認識・画像解析のAI開発に強い!プロ厳選の開発会社の記事では、画像認識・画像解析におすすめの会社を紹介していますので、ぜひご一読ください。
顧客の志向予測
小売業をはじめ、精密な需要予測にはAIの教師あり学習が使われています。個人の言動や感情の表現を情報として抽出し、その嗜好や反応パターンを予測するセンチメント分析は企業ブランディングの強力なツールです。
需要予想にAIを活用するメリット・デメリット、導入事例についてはこちらで分かりやすく解説しています。
視聴しているサイト情報から個人の購入履歴や視聴者の好みを推測し、購買意欲をかきたてるような商品の紹介をするレコメンドアルゴリズムは、マーケティングツールとして現実のネット上に実装されていますね。
教師あり学習の課題
教師あり学習はAIのディープラーニングにおいて非常に強力な学習プロセスですが、学習データの準備及びその信頼性に関する懸念が実働アルゴリズムにおいて大きなリスクになるという課題があります。データベースに誤りがあればAIのアルゴリズムは正しく機能しません。
また、学習モデルを正しく構築するためには相当なレベルの専門的な知識が欠かせません。教師あり学習モデルに十分な学習経験を積ませるには多くのサンプルデータと学習時間が必要です。
教師あり学習を使った開発は代行会社へ
有効な教師データが十分にある場合、教師あり学習はAIの分類、回帰アルゴリズムを自動生成させるために非常に有効な手法です。すでに様々な形で現実の用途でも活用が進められています。
教師あり学習によるAIの学習モデルを構築するにはコストやデータの処理など、検討すべき多くの条件が存在します。導入にあたってお悩みであれば、最適なAI開発会社の紹介を行っているAI Marketをぜひご利用ください。
Webサイトには掲載されていない開発コストなどの情報を含め、AI Marketの専門コンサルタントがAI学習モデルに強い開発会社の選定を無料でサポートいたします。
