🤸 피처 엔지니어링 (Feature Engineering) 🤸
1. 탐색적 자료분석 (EDA)
*참고 사이트 : https://www.itl.nist.gov/div898/handbook/eda/section1/eda1.htm
1) 정의
- 탐색적 자료분석(Explorary Data Analysis, EDA)는 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법
🔍What is EDA ?
1. maximize insight into a data set; (데이터셋에 대한 통찰력 최대화)
2. uncover underlying structure; (근본적 구조 파악)
3. extract important variables; (중요한 변수 추출)
4. detect outliers and anomalies; (이상점 및 변칙을 탐지)
5. test underlying assumptions; (기본 가정 검증)
6. develop parsimonious models; and (간결한 모형을 개발)
7. determine optimal factor settings. (최적의 인자설정을 결정)
🔍What are the EDA Goals?
1. a good-fitting, parsimonious model (적합하고 간결한 모형)
2. a list of outliers (이상점 목록)
3. a sense of robustness of conclusions (결론의 견고(강건)함)
4. estimates for parameters (파라미터의 주정)
5. Uncertainties for those estimates (추정치들의 불확도)
6. A ranked list of important factors (중요 인자의 순위목록)
7. conclusions as to whether individual factors are statistically significant (인자들의 통게적 유의성여부)
8. optimal settings (최적 설정)
2) 전통적 분석 vs EDA
: EDA경우, 분석(Analysis)와 모델(Model)의 순서가 바뀜!
3) CDA vs EDA
: 자료분석의 경우 확증적 자료분석(Confirmatory Data Analysis)과 탐색적 자료분석(Exploratory Data Analysis)로 나눌 수 있다.
① 확증적 자료분석(Confirmatory Data Analysis, CDA): 추론 통계, 연역적 사고, 지도학습
② 탐색적 자료분석(Exploratory Data Analysis, EDA): 기술통계, 귀납적 사고, 비지도학습
2. 피처 엔지니어링 (Feature Engineering)
1) 정의
: 선택한 모델링 접근 방법 위에서 데이터가 알맞게 표현 되었는지를 확인하고 자신의 도메인 전문지식과 문제에 대한 이해를 결합하는 작업
2) 기법
https://magoker.tistory.com/118
3. EDA 목표 및 주제
1) EDA 목표
① 데이터 표준화: ZScore(표준정규변환) / MinMax(최대값 범위 대비 지수) / Logistic(로지스틱 변환) / LogNormal(로그정규분포 변환) / Tanh(쌍곡 탄젠트 변환)
② 이상값 탐색 및 처리
- 이상값 탐색 방법: 분포기반 / 확률값 기반 / 비즈니스 정의 기반
- 이상값 처리 방법: Case Deletion / Imputation / Clip (or Winsorized)
2) EDA 주제
① 저항성(Resistance) : 자료의 일부 변동에 따른 영향을 비교적 적게 받아야 함
② 잔차 계산(Residual) : 각 개별 관측값이 주요 경향으로부터 얼마나 벗어났는지 나타냄
③ 재표현(Re-Expression) : 원본 자료를 적당한 척도로 변환하는 것을 말함. 데이터분석을 단순화하여 해석에 도움을 줌
④ 자료의 현시성(Graphic Revelation): 자료 내 숨겨진 정보를 효율적으로 보여줌. 다양한 그래픽적 표현을 사용함
'😆 Big Data > - ML & DL' 카테고리의 다른 글
[ML]🚶♀️Simple purchase data로 머신러닝 (0) | 2022.03.16 |
---|---|
[ML]🚶♀️Simple salary data로 ML warm-up하기 (0) | 2022.03.15 |
[ML] 🤸 4. 머신러닝 알고리즘 평가 (0) | 2022.03.01 |
[ML] 🤸 3. 머신러닝 알고리즘 (0) | 2022.03.01 |
[ML] 🤸 2. 머신러닝 데이터의 유형 (0) | 2022.03.01 |