😆 Big Data/- ML & DL

[ML] 🤸 4. 머신러닝 알고리즘 평가

또방91 2022. 3. 1. 18:55
728x90

 

 

 

 

🤸  머신러닝 알고리즘 평가 🤸

 

 

 

 

 

1. Bias / Error

1) Bias

* Fitting: 실제값을 지나는 여러 개의 곡선이 존재

* 검증용 데이터를 고려한다면? Goodness of Fit

2) Error

①  과대적합(Overfitting): 모델이 훈련 데이터에 너무 잘 맞지만 일반성이 떨어질 때 발생

-  과대적합  해결방법: 훈련데이터를 더 많이 모은다. / 정규화시킨다. / 훈련데이터 잡음을 줄인다.

 

 과소적합(Underfitting): 모델이 너무 단순해서 데이터의 내재된 구조를 학습하지 못할 때 발생

 - 과소적합 해결방법: 파라미터가 더 많은 복잡한 모델을 선택한다. / 모델의 제약을 줄인다(=규제 하이퍼파라미터 값 줄인다.) / 과대적합 되기 전의 시점까지 충분히 학습한다.

- 하이퍼파라미터란 학습하는 동안 적용할 규제(과대적합 되지 못하도록 제약)의 양을 결정하는 것이다. 너무 높으면 과소적합 문제 발생

 

 

2. 머신러닝 평가 데이터 구성

1) 학습 / 검증 / 테스트 데이터 분리

①  학습 데이터 (train data) : 모형 f 를 추정하는 데 필요합니다.

②  검증 데이터 (validation data ): 추정한 모형 f 가 적합한지 검증합니다.

③  테스트 데이터 :(test data) : 최종적으로 선택한 모형의 성능을 평가합니다. 

 

2) 교차검증

- 교차 검증은 train set을 train set + validation set으로 분리한 뒤, validation set을 사용해 검증하는 방식이다.

-  종류: K-Fold Cross Validation ( k-겹 교차 검증 ), Stratified K-Fold Cross Validation ( 계층별 k-겹 교차 검증 )

K-Fold Cross Validation ( k-겹 교차 검증 )

 

3. 모델 성능 측정

: 모델의 일반화 성능을 평가할 기준

 

4. 분류모델 평가지표

1) 정오분류표(Confusion Matrix) 

 

2) ROC (Receiver Operating Characteristic)

- 기준값(threshold)이 달라짐에 따라 분류모델의 성능이 어떻게 변하는지를 나타내기 위해 그리는 곡선

민감도를 y축에 놓고 (1-특이도)를 x축에 놓은 뒤 각 기준값(threshold)의 변화에 따라 성능 평가 지표의 값이 어떻게 변하는지를 시각화한 곡선

 

5. Variance / Bias

: 편향-분산 트레이드오프 (Bias-Variance Trade-off)는 지도 학습(Supervised learning)에서 error를 처리할 때 중요하게 생각해야 하는 요소이다!

 

 

 

 

 

 

728x90