AI(機械学習)を活用した異常検知を行うにあたって、社内にそれっぽいデータはあるものの「本当に使えるデータなのか?」と悩まれる方も多いでしょう。
そこで今回は、異常検知ソリューション「Impulse」のエンジニアが、分析しやすいデータ・使いにくいデータとはどのようなものかを詳しく解説いたします。
■目次:
- 分析しやすいデータ
- 観点
第1章 分析しやすいデータ
分析しやすいとは?
そもそも分析とは手段であり、それ自体に良し悪しはありません。目的が定まって初めてその手段(分析)の良し悪しが決まります。
そのため、ここでは目的を「異常検知」とし、その結果を得やすいことを「分析しやすい」として、話を進めます。
結論
結論から話しますと、「分析しやすい」とは以下のデータとなります。
- データを見れば異常がわかるもの
- パターン化されているデータ
- 十分なデータ量
データを見れば異常がわかるもの
上を見れば分かる通り、異常が発生している期間に、人が目で見てわかる異常なデータ(注1)が発生していることがポイントです。
モデルの作りやすさという意味でも、モデルの精度を検証するという意味においても、異常がきちんとデータに現れていることが重要です。
異常が現れているデータがない場合、そのデータをどんなに分析しても異常を検知することは難しいでしょう。電流値に異常が現れるケースで、気温データを分析していても、期待する結果を得られることはまずありません。
パターン化されているデータ
先程のグラフでもう一つわかることは、正常時がパターン化(注2)しやすいということです。常にランダムに動くようなデータでは、異常時と正常時の区別が付きづらく、期待する精度は出づらいケースがほとんどです。
もちろん、データは人が作るわけではないので都合よくパターンが現れるわけではありません。しかし、稼働モード(注3)や季節等、何らかの条件で抽出した場合にパターン化できそうか、事前に確認することは、精度の良いモデルを作成するために効果のある作業となります。
十分なデータ量
ぱっとわかりやすい異常データもパターンも見つけられなくても、データ量が多ければ多いほど、それを見つけられる可能性は高くなります。
1週間分のデータしか無い、3つ程度のセーンサー値しかないといった場合、そこに上記のような特徴を見つけられなければそれで手詰まりとなってしまいます。
十分なデータ量を定義するのはケースバイケースのため中々難しいのですが、次に示す観点を参考にデータを収集頂くのが分析の効率に影響します。
第2章 観点
分析しやすいデータは述べたとおりですが、では自分の手元にあるデータ、そしてこれから取ろうとするデータはどの程度活用できそうなのか、それを確認するいくつかの観点をここで紹介します。
観点
- データの種類
- 正常データと異常データ
- 期間
- 間隔
データの種類
まずはデータの種類です。電流値や気温、湿度、様々なデータをとれば、捉えられる障害パターンは多くなることがで期待できます。
正常データと異常データ
正常データと異常データそれぞれが取得できていることが望ましいです。また、異常データ出会ってもその異常パターンが異なれば、各異常パターンのデータがあることが望ましいです。
期間
一口にどのぐらいの期間とは言えず、理想的には正常パターンがどれだけ繰り返されているかがポイントとなります。1日単位のパターンであれば1ヶ月、1時間単位のパターンであれば1週間といったように変わります。
間隔
何分何秒といったデータ間隔です。ゆっくり動くデータとわかっているのであればその感覚はあけてよいし、逆にモータのようにミリ秒という間隔でないとパターンが現れないものはその間隔で取得する必要があります。
第3章 最後に
機械学習においてデータは何よりも重要な要素となります。しかしながら、最初から完璧なデータを収集するということは現実的に不可能です。
まずは目の前で発生している障害をテーマに、徐々に徐々にデータのモデルの活用幅と精度を向上していくことをおすすめします。
Appendix
- 注1)特性分析という、モデル作成をするまえにパターンを分析する機能がImpulseにあります。紹介記事はこちらです。
- 注2)異常データがない場合、疑似異常というImpulseの機能を使うことで精度をシミュレーションすることができます。
- 注3)稼働非稼働や運転モードがデータに含まれていない場合、分析精度が極端に下がることがあります