😆 Big Data/- 데이터

[ADsP] ADsP 예상문제 3과목 - 5 영상 공부하기

또방91 2022. 2. 23. 16:21
728x90

'ADsP 예상문제 3과목 - 5 영상' 공부하기

 

 

 

 

 

Q1. 지니지수

-  불순도 측정을 위해

 =  1 - 각 경우의 수의 제곱 합

 

Q2. 연관규칙 딸기->사과 지지도

* 연관규칙- 지지도: P(AUB) / N

=> 딸기,사과 구입한 거래건수 /전체 거래건수

 

+++ 더 추가해서 공부하기!

*연관규칙 - 향상도

*연관규칙 - 신뢰도

 

Q3. 확률분포

- 확률변수에서 기댓값 : x*f(x)들을 다 다해줌 

 

Q4. F1값구하기

precision : 진짜라고 예측 중에 -> 실제 진짜

recall(재현율) = 민감도(sensitivity) : 실제 진짜 중에 -> 진짜라고 예측

F1 = 2* (precision * recall/ precision +recall)

 

Q7. Cluster - 계층적 군집

* 와드 연결법 : 군집간의 거리에 기반하는 다른 연결법과는 달리 군집 내의 오차제곱합에 기초하여 군집을 수행하는 계층적 군집분석의 거리 측정방법. / 계층적 군집내의 오차 제곱합에 기초하여 군집을 수행하는 군집방법

 

Q9. 계층적 군집의 거리 구하기

- 맨해튼 방법: 두 좌표의 절대값의 합으로 구한다.

a(100,5) b(50,7) ===>  |100-50| + |5-7| = 52 

 

cf)유클리드 방법: ( (100-50)**2 + (5-7)**2 ) **1/2Q

 

Q10. 척도의 종류

- 명목척도: 단순 특성 분류 ex)성별. 혈액형

- 서열(순위/순서)척도 ex)선호도,만족도,메달

- 등간(구간)척도 ex) 온도, 물가

- 비율정도 : 절대 0점이 존재

 

Q11. 공분산

- 2개의 확률변수의 선형관계를 나타냄

- 공분산 0이면 ==> 서로 독립, 관측값들이 4면에 균일하게 분포

- 헷갈리지 말자! 공분산을 -1 ~ 1 범위로 표준화 시킨 것이 상관계수

 

Q12. 회귀모형 - 회귀분석 가정 中 '등분산성' 위배 

 

 

 

 

 

 

 

 

 

- 선형성: line(선)형. x 따라 y변화하는. y값은 기울기가 0인 직선이 이상적임

- 독립성: 잔차와 x값이 관련 X

- 정규성: 정규분포를 이루기

- 등분산성: 잔차항 분포가 동일한 분산

- 비상관성: 잔차끼리 상관 X

 

Q13. 중심극한 정리

- 모집단의 분포와 상관없이 표본크기(N)가 충분히 크면, 표본 평균의 분포가 정규분포와 근사함

- N이 최소 30이상 되어야 성립

 

Q15. 앙상블 모형

- 부스팅(Boosting): 이전 모델의 결과에 따라 -> 다음 모델 표본추출에서 분류가 잘못된 데이터 가중치를 부여하여 표본추출 (약간 패널티? 같은 것). 맞추기 어려운 문제를 맞추는데 focus. 이상치(Outlier)에 약함.

- 배깅(Bagging): 원본 데이터 집합에서 중복허용 크기가 같은 표본을 여러번 단순 임의 복원추출하여 -> 각표본에 대한 분류기를 생성 후 그 결과를 앙상블.  -> So, 반복추출 방법을 사용하기 떄문에 같은 데이터가 한 표본에 여러번 추출될 가능성 / 한번도 추출되지 않을 가능성 있음 

- 랜덤 포레스트: 배깅(Bagging) + Random 추가한 방법. 노드 내 데이터를 자식노드로 나누는 기준을 정할 때 설명변수(x값)의 일부분만 고려함으로 성능을 높이는 방법

 

 

 

728x90