G検定

【G検定対策③】機械学習の基礎を解説(教師あり・なし・強化学習とモデル評価)

機械学習の概要

機械学習とは、データから規則パターンを学習し、予測や判断を行うAI技術です。人がルールをプログラミングするのではなく、コンピュータがデータから自ら学ぶ点が特徴です。機械学習には大きく分けて「教師あり学習」「教師なし学習」「強化学習」の三つの手法があり、それぞれ学習の仕方や適用分野が異なります。G検定でもこれら機械学習の具体的手法(教師あり・教師なし・強化学習)の基本理論や、学習済みモデルの評価方法・評価指標の理解が求められています。以下では、これらの概要を解説していきましょう。

  • 機械学習
    • 教師あり学習
      • 分類
        • サポートベクタマシン(SVM)
        • 決定木
        • ランダムフォレスト
      • 回帰
        • 線形回帰
        • ニューラルネットワーク回帰
        • サポートベクタ回帰(SVR)
    • 教師なし学習
      • クラスタリング
        • K平均法クラスタリング
        • 平均シフトクラスタリング
    • 強化学習
      • 意思決定
        • Q-ラーニング
        • R-ラーニング

図: 機械学習の主な学習手法の分類。教師あり学習にはSVM(サポートベクターマシン)や決定木、ランダムフォレストなどによる分類(Classification)や、線形回帰などによる回帰(Regression)が含まれる。教師なし学習にはデータをグループ分けするクラスタリング(Clustering)や特徴抽出のための次元削減(Dimensionality Reduction)が含まれる。強化学習ではエージェントが試行錯誤により報酬を最大化する意思決定(Decision Making)を学習する。各手法で用いられる代表的なアルゴリズムの例も示している。

教師あり学習 (Supervised Learning)

教師あり学習では、学習データに正解ラベル(教師データ)が付与されたデータを使ってモデルを訓練します。すなわち各入力に対応する期待出力(正解)が予め与えられており、モデルはその対応関係を学習するのです。このため、分類(あらかじめ定めたカテゴリにデータを振り分ける)や回帰(数値を予測する)のように正解が明確に存在する問題に適しています。例えばスパムメール判定では「メール本文→スパムか否か」という正解付きデータで学習し、新しいメールのスパム判定モデルを作ります。また、株価予測では過去の株価データ(入力)と実際の値動き(正解)を使ってモデルを学習させ、将来の株価を予測します。

教師あり学習の代表的なアルゴリズムとしては、回帰手法(線形回帰など)や分類手法(決定木、サポートベクターマシン、ランダムフォレストなど)が挙げられます。さらに近年ではニューラルネットワークを用いたディープラーニングも広く利用されています。深層学習(ディープラーニング)は基本的に教師あり学習を発展させたものであり、大量のデータから高度なパターンを学習できる点が強みです。

教師あり学習では正解データが存在する分、モデルの予測精度が高くなりやすく、現実の応用で最も多く使われている手法と言えます。その反面、十分な量の正解データ(ラベル付けされたデータ)を用意するコストや手間がかかるという課題もあります。

G検定で押さえるべきポイント: 教師あり学習は正解データ付きの訓練によって入力から出力への対応関係を学習する手法です。分類(カテゴリー分け)や回帰(数値予測)など、答えがはっきりある問題で活用され、十分な教師データがあれば高い精度を発揮します。

教師なし学習 (Unsupervised Learning)

教師なし学習は、学習データに正解ラベルを与えない状態でモデルを訓練する手法です。入力データのみをもとに、そこに潜むパターンやグループ構造をコンピュータが自律的に見つけ出します。教師あり学習と対になる手法であり、正解が存在しない場合の問題に適しています。正解が無いので回帰や分類といったタスクには直接用いることができません

では教師なし学習で何ができるのでしょうか。代表的な例はクラスタリング次元削減です。クラスタリングとはデータの特徴からグループ分け(クラスタ)を行うことで、例えば顧客データを購買パターンに基づいていくつかのグループに分け、マーケティング戦略に活かすといった応用があります。次元削減とはデータを特徴づける情報を抽出してデータを簡潔に表現し直すことで、例えば多数の試験科目の点数データから「文系が得意」「理系が得意」といった特徴を導き出すことができます。

このように教師なし学習は、正解・不正解が明確でないデータから未知のパターンを発見するために用いられます。世の中には事前に正解が定まっていないデータも多いため、教師なし学習によって新たな知見を得たりデータの構造を把握したりできるのです。

G検定で押さえるべきポイント: 教師なし学習は正解データなしでデータの構造を学習する手法です。クラスタリング(データのグループ化)や次元削減(特徴抽出)が代表例で、正解が明確でない問題に適用されます。

強化学習 (Reinforcement Learning)

強化学習は、エージェント(学習者)が環境との相互作用を通じて試行錯誤を繰り返し、報酬を最大化する行動方策を学習する手法です。エージェントがある状態で行動を起こし、その結果得られる報酬(Reward)をもとに、次にとるべき行動を強化または抑制して学習を進めます。最終的に累積報酬が最大となるような最適な戦略(ポリシー)を見つけ出すことが目標です。

強化学習はゲームAIやロボット制御、自動運転などの分野で活用されており、明確な教師信号が無い状況で経験に基づいて学習できる点が強みです。例えば囲碁や将棋などのゲームは、最終的な勝敗(=報酬)を最大化することが目的となるため、強化学習によるアプローチが非常に効果的です。実際にGoogle DeepMind社のAlphaGoは強化学習とディープラーニングを組み合わせることで、人間のトップ棋士に勝利するほどの棋力を身につけました。

G検定で押さえるべきポイント: 強化学習は報酬に基づく試行錯誤によって学習する手法です。環境内でエージェントが行動し、得られた報酬をもとに最適な戦略を見つける点が特徴で、明確な教師データがない問題に適用されます。

モデルの選択・評価

機械学習モデルを運用する上で重要なのは、トレーニングデータに対する性能だけでなく、新しいデータに対してどれだけ汎化性能(一般化性能)が高いかという点です。訓練データでのみ高い精度を示すモデルは過学習(Overfitting)に陥っており、新規データにはうまく対応できません。逆に訓練データに対してさえ精度が低いモデルは学習不足(Underfitting)の状態です。

汎化性能を正しく評価するために、通常はデータを訓練用テスト用に分割します(ホールドアウト法)。モデルは訓練データで学習し、テストデータで性能を評価します。テストデータでの評価結果こそがモデルの真の性能指標となります。また、データ量が限られる場合には交差検証法(クロスバリデーション)を用いることも一般的です。例えばk分割交差検証ではデータセットをk個に分割し、そのうち1つをテスト用(検証用)として残りを訓練に用いることをk回繰り返し、平均的な性能を測定します。

モデルの評価指標としては、タスクの種類に応じて様々なものがあります。分類モデルの場合、正解率(Accuracy)が最も基本的な指標ですが、それだけではモデルの良し悪しを判断できないことも多いです。特にデータのクラス分布が偏っている場合は、適合率(Precision)や再現率(Recall)、F1スコアといった指標が重要になります。これらは混同行列(Confusion Matrix)に基づいて計算され、適合率はモデルが予測した正クラス(Positive)のうち実際に正であった割合、再現率は実際に正であるもののうちモデルが正と予測できた割合を表します。F1スコアは適合率と再現率の調和平均で、両者のバランスを見る指標です。また、モデルのしきい値を変化させて性能を評価するROC曲線(受信者操作特性曲線)や、その曲線下面積であるAUCも分類モデルの性能比較によく用いられます。

一方、回帰モデルの評価には平均二乗誤差 (MSE)平均絶対誤差 (MAE)、決定係数 R^2 などの指標が使われます。教師なし学習のモデル評価は簡単ではありませんが、例えばクラスタリングの結果を評価する指標としてシルエット係数などがデータのまとまり度合いを測るのに利用されることがあります。

モデルの選択・比較を行う際には、以上のような評価指標を参考に、解きたい課題に最適なモデルを選ぶことになります。適切なモデル選択のためには、一つの指標だけに依存せず複数の指標を組み合わせて総合的に評価することが重要です。また、モデルの複雑さを考慮して AICBIC でモデルを比較する方法もあり、当てはまりの良さとモデルの簡潔さをバランスよく評価できます。

G検定で押さえるべきポイント: モデル評価では、訓練データ以外で性能を確認し、過学習を避けることが重要です。また、Accuracy(正解率)だけでなくPrecision(適合率)・Recall(再現率)・F1スコア等の複数の指標を理解し目的に応じて使い分けます。さらに、交差検証による汎化性能の検証やAIC/BICによるモデル複雑度の評価など、総合的なモデル選択・評価手法もG検定で問われるポイントです。

まとめ

本稿では機械学習の基本である教師あり学習・教師なし学習・強化学習と、モデルの選択・評価について講義風に解説しました。それぞれの手法の特徴や適用例、そしてモデル評価の考え方を押さえることで、G検定で問われるポイントを効率よく理解できたのではないでしょうか。機械学習の基礎知識はビジネスにおいても非常に役立ちます。ぜひ今回の内容を復習し、さらなる学習に繋げていただければ幸いです。

参考文献
  1. スキルアップAI 「G検定とは|試験範囲や難易度、合格率、おすすめの勉強方法を解説 (2025年2月更新)」skillupai.com
  2. NTT東日本 「教師あり学習とは?覚えておきたい機械学習の学習手法概要」business.ntt-east.co.jpbusiness.ntt-east.co.jp
  3. IBM Think Blog 「What is Supervised Learning?」ibm.com
  4. NTT東日本 「教師なし学習とは?覚えておきたい機械学習の学習手法概要」business.ntt-east.co.jpbusiness.ntt-east.co.jpbusiness.ntt-east.co.jp
  5. MathWorks 強化学習解説ページjp.mathworks.com
  6. BrainPad DOORS 「強化学習入門:強化学習とは機械学習の手法のひとつ」brainpad.co.jp
  7. Nature論文 (Silver et al., 2017) 「Mastering the game of Go without human knowledge」nature.com
  8. JDLA公式シラバス「3-2 10.モデル評価と選択の基本概念」note.com
  9. AI総合研究所 「機械学習における評価指標とは?」ai-souken.com
  10. Reinforz.ai 「最新のモデル選択手法ガイド:効果的なモデル選択のための必須知識」ai.reinforz.co.jp

G検定

2025/5/4

G検定対策⑧:AI倫理・AIガバナンスの主要原則と重要用語をわかりやすく解説

AI倫理・AIガバナンスとは? AI倫理とは、人工知能の開発・利用において守るべき価値観や原則のことです。例えば「AIは人権を尊重すべき」「差別や偏りを生じさせないようにすべき」といった倫理的指針を指します。AIが社会に与える影響が大きくなる中で、何が「良いAI利用」で何が「悪い利用」かを判断する基準として、このAI倫理が重要になります。 一方でAIガバナンスとは、AI倫理を実践するための仕組みやルール作りのことです。企業や政府がAIの開発・運用に際し、適切な管理・監督体制を整え、AIを安全かつ倫理的に活 ...

G検定

2025/5/4

【G検定対策⑦】AIに関する法律と契約をやさしく解説!個人情報保護法からサービス契約まで

はじめに:AIの法律と契約を学ぶ意義 こんにちは!今回はG検定(ジェネラリスト検定)の合格を目指す皆さんに向けて、AIに関する主要な法律と契約のポイントを講義風にフレンドリーな文体で解説します。AI分野では技術だけでなく法的な知識も求められます。例えば、個人データの扱い方やAIで作った成果物の権利関係を知らないと、思わぬトラブルにつながるかもしれません。法律や契約と聞くと難しく感じるかもしれませんが、数学・法律初心者の方でも理解できるようにやさしく説明していきます。一緒に個人情報保護法からAIサービス提供 ...

G検定

2025/5/4

G検定初心者向け⑥:AIに必要な数理・統計知識の基礎をやさしく解説

G検定(ジェネラリスト検定)は、AIの基礎知識を問う試験ですが、数学が苦手な方にとってはハードルが高く感じられるかもしれません。ご安心ください。本記事ではAIに必要な数理・統計の知識を、数学初心者でも理解できるように解説します。確率分布の基礎からベイズの定理、分散と標準偏差、そして正規分布まで、G検定で押さえておきたい重要トピックを取り上げます。具体例や図表も交えますので、イメージしながら学んでいきましょう。それでは一緒に基礎を固めていきましょう! 確率分布とは?離散分布と連続分布の違い まずは確率分布の ...

G検定

2025/5/4

G検定対策講座⑤:AI社会実装プロジェクトの進め方とデータ分析プロセス徹底解説

はじめに: AIの社会実装とG検定 AI技術を実際のビジネスや社会に役立てる「AIの社会実装」では、技術面だけでなくプロジェクトの進め方やデータの扱い方が重要です。本記事では、講義風かつフレンドリーな口調で、AIプロジェクトの計画から実装までの流れと、データ収集・前処理・分析・学習のプロセスについて解説します。短時間でAI導入のポイントを掴みたいビジネスパーソンは参考にしてください。 1. AIプロジェクトの進め方 AIプロジェクトを成功させるには、明確な目的設定から始まり、段階的にリスクを管理しつつ価値 ...

G検定

2025/5/4

G検定対策に最適!④ディープラーニング基礎講座:ニューラルネットの概要から誤差逆伝播法・最適化手法まで

はじめに:ディープラーニングの概要 皆さん、ディープラーニング(深層学習)という言葉はもう聞いたことがありますよね?これは人工知能(AI)の一分野で、多層のニューラルネットワークを用いてコンピュータが自らデータから特徴を学習する技術です。従来の機械学習では、どの特徴に注目すべきか人間が設計していましたが、ディープラーニングでは層が深く重なったニューラルネットワークがデータから重要な特徴を自動抽出し、複雑なパターンも捉えられる点が画期的です。2010年代以降、計算資源(GPU)の発達とビッグデータの蓄積によ ...

-G検定
-, , , , ,