😆 Big Data/- ML & DL

[ML 알고리즘] 이상 탐지(Anomaly Detection) 알고리즘

또방91 2022. 2. 6. 14:55
728x90

 

 

 

 

 

이상탐지 알고리즘에 대한 내용이 너무 방대하기도 하고,

다 공부하기엔 바쁘다바빠현대사회에 살고있는 나이기에

잘 정리설명을 하는 유튜브강의를 선택하였다!  역시나 좋은 강의 !

 

 

🎥 유튜브강의 주소 https://youtu.be/xPA6JyHFHew

 

 

🪄1. 이상 탐지 알고리즘 개요

 

1. 이상탐지란? (위키백과)

 - 이상 탐지(anomaly detection)는 일반적인 값과 다른 특이한 값(outlier)나 드문 사건을 탐지하는 기법이다.

 - 침입, 사기, 결함, 건강 이상, 범죄 등 다양한 것을 탐지할 수 있다.

 

2. 이상탐지가 필요한 이유는?

 - 우리 삶에서 발생하는 비정상인 이상치 및 이를 탐지하는 일을 줄임으로써, 사회적 비용 절감과 문제해결을 위해서 필요하다!


 

🪄2. 이상 탐지의 종류

; 논문까지 찾아보며 열심히 정리해준 표이다보니 한 눈에 쏙 들어왔다.

 

https://youtu.be/xPA6JyHFHew 2:35화면 캡쳐

 

< 이상 탐지 종류로는 크게 6가지 >

1. Point Anomaly Detection

2. Contextual anomaly detection

3. Collective  anomaly detection

4. Online Anomaly detection

5. Online anomaly detection

6. Distributed anomaly detection

 

          👇👇👇👇👇

자주 사용되는 1~3번에 대해 간략히 말하자면 - !

(https://dodonam.tistory.com/250 참고)

 

1. Point Anomaly Detection

 - 특정 point의 이상치를 감지한다.

 - 일반적으로 데이터 내의 outlier 이상치를 감지

 - 축적된 시간동안 정적인 점분포에 초점을 둔다

 

2. Contextual anomaly detection

 - 연속적인 변화 패턴을 읽어서 이상치를 감지한다.

 - 맥락을 고려해서 예상변화와 동떨어진 결과를 탐지한다.

 - 주의점: 민감하면 정상인데도 이상탐지가 되고, 둔감하면 비정상인데도 이상탐지를 놓침

 - 시계열과 같은 동적인 특성에 초점을 둔다.

 

3. Collective  anomaly detection

 - 연관있는 2개 이상의 데이터의 변화를 탐지한다.

 - 2개이상의 특징을 비교해서, 1개의 특징 변화에 따라 다른 하나 특징이 예상했던 패턴이 아닌 비정상적 패턴을 가질 때 탐지한다.

 

* 참고

 

 


 

🪄3. 자주 사용되는 이상 탐지기법 7가지

1. 규칙유도 (Rule Induction)

 - 규칙 유도 알고리즘은 의사결정나무와 비슷하게 If - then 형태로 데이터의 패턴을 찾아가는 마이닝 기법입니다.

 - 데이터 일부 또는 전체를 표현하는 규칙을 반복적으로 찾아 나가면서 규칙집합을 생성하고, 과적합을 완화시키기 위해 가지치기(pruning)과정을 거침

 

2. 랜덤포레스트 (Random Forest)

 

- 랜덤 포레스트는 단일 학습 알고리즘의 성능보다 더 높은 성능을 얻기 위해 다중 학습 알고리즘을 사용하는 앙상블 학습방법입니다.

 - 다수의 의사결정 알고리즘으로부터 평균치를 이용하여 동작한다.

 

 

 

3. 서포트벡터머신 (SVM, Support Vector Machine)

 

 - SVM이란 딥러닝 활성화 이전 시대에 가장 많이 쓰던 분류알고리즘으로 기본적으로는 데이터를 두 개의 그룹으로 분류하는 기법입니다.

- 이 때 두 개의 그룹으로 데이터를 분류하는 최적의 기준선을 찾는 것이 알고리즘의 목적입니다.

 

 

 

4. 자기조직화맵 (SOM, Self-Organization Map)

 

- SOM이란 비지도 학습 신경망 모델의 유형 중 하나로 정보 집합을 그래프로 표현하여 분석합니다.

 - 유사한 패턴을 가진 정보들을 클러스터링한다.

 

 

 

5. 은닉 마르코프모델 (HMM, Hidden Markov Model)

 - HMM이란 음성,필기,동작 인식 등과 같이 시간에 따라 변화하는 것에서 패턴을 인식하는데 유용하게 사용되는 기법이다.

 - 확률이론을 기반으로 하여 이전 상태오 현재 상태의 값을 이용해 미래의 값을 예측하는 방법입니다.

 - 고려하는 상태의 수에 따라 알고리즘 복잡도가 증가합니다.

 

6. 유전 알고리즘 (Genetic Algorithm)

 -  유전 알고리즘은 유전학에서 다윈의 진화론을 기본개념으로 합니다. 유전자 프로그래밍에서는 문제에 대한 가능한 해들을 나열한 뒤, 점점 유전자들을 변화시켜 정확도가 높고 좋은 해들을 만들어 냅니다.

 - 여기서 문제의 해들을 유전자 라고 부르고, 그리고 이런 유전자들을 변형시켜 좋은 해를 얻는 것을 진화라고 볼 수 있다. 즉, 더 좋은 답을 찾아 가기 위해 진화를 모방한 알고리즘 입니다.

 

7. 딥러닝 (Deep Learning)

 - 딥러닝이란 인경 신경망 구조에서 착안한 알고리즘으로 입력층, 출력층, 다수의 은닉층을 구성하여 학습하는 방식입니다.

 - CNN(합성곱신경망), RNN(순환신경망) 등

728x90