こんにちは。ブレインズテクノロジーの柴田です。
機械学習の用語に「教師あり学習・教師なし学習」があります。この記事ではImpulseの学習方法はどっちなの?という疑問にお答えします。

教師あり学習・教師なし学習について

教師あり学習・教師なし学習についてと異常検知の考え方については過去の記事(異常検知の学習方法3パターンと過検出を抑えるテクニック)にて解説されていますので、そちらもご参照いただければと思います。

ここでは簡単な説明にとどめますが、以下のような違いがあります。

  • 教師あり学習:正常データと異常データを区別して学習する
  • 教師なし学習:正常データと異常データを区別せずに学習する

Impulseはどっちなの?

「異常検知の学習方法3パターンと過検出を抑えるテクニック」で説明されているように、異常検知の代表的な手法には以下の3つがあります。

  • 教師あり学習
  • 教師なし学習
  • ハイブリッド(教師なし学習+層別)

Impulseの異常検知アプリケーションでは、これらのうち、ハイブリッドをベースにしていますが、教師あり学習・教師なし学習も利用可能です。

ハイブリッドがベースである理由として、Impulseがよく使われる設備や機器の異常検知では、十分な異常データを収集することが難しいケースが多く、また未知の異常が発生することも考えられることが挙げられます。

このような場合、十分な異常データを必要とする教師あり学習よりも、異常データが少ない場合でも「いつもと違う」状態を見つけることができるハイブリッドが適していると言えます。また教師なし学習よりもモデル精度が良い点もハイブリッドが適している点の1つです。

それではImpulseについてもう少し詳しく説明していきます。

ハイブリッドを元に説明すると、Impulseは

  1. 学習データでモデルを作成(教師なし学習)
  2. 評価データでモデル精度を評価(作成したモデルを使用して評価データを判定する)

というような2段構えとなっております。

モデルの精度評価では、正常データを判定することで過検出(正常データを間違って異常と判定していないか)を、異常データを判定することで見逃し(正しく異常を見つけることができているか)を評価します。

モデル作成では基本的に、教師なし学習のアルゴリズムを使って良品学習(正常データのみを学習)をしますが、モデル評価では実際の異常データがあることが望ましいです。

ただし、Impulseには疑似的な異常を挿入する機能も備わっているため、異常データの取得が難しい場合でも簡易的なモデルの精度評価が可能です。

上述のモデルの精度評価に関して、Impulseにはラベル設定画面があり、学習実行前に異常データに対してラベルを付与することで、正常データと異常データを区別します。

ラベル設定があるから教師あり学習ですか?と、ご質問いただくこともありますが、主としてモデル評価のための設定であり、教師なし学習のアルゴリズムを使っている場合は異常ラベルを付けたデータを異常データとして学習しているわけではありませんので、ご注意ください。

その他のアプリケーション

Impulseでは異常検知以外にも以下のアプリケーションを提供しています。

  • 不良品検知
  • 要因分析

不良品検知は製品1つ1つの製造時のセンサデータから、各製品が良品か不良品かを判定する機能です。不良品検知は教師なし学習に当たります。

要因分析は、実際に異常が発生した後に、将来の異常発生を防ぐために使われる機能で、具体的には異常への影響度の高い項目を抽出し、異常が発生しないような条件を分析します。要因分析は正常データと異常データを区別して分析するため、教師あり学習に当たります。

これらの機能の詳細な説明については今後ご紹介する予定です。

まとめ

今回はImpulseは教師あり学習・教師なし学習どっちなの?という疑問にお答えしました。
Impulseでは課題に合わせて、教師なし学習・教師あり学習のアプリケーションを提供しています。
解決したい課題に対してImpulseがお役に立てそうであれば、お気軽にご相談ください。