'ADsP 예상문제 3과목 - 5 영상' 공부하기
Q1. 지니지수
- 불순도 측정을 위해
= 1 - 각 경우의 수의 제곱 합
Q2. 연관규칙 딸기->사과 지지도
* 연관규칙- 지지도: P(AUB) / N
=> 딸기,사과 구입한 거래건수 /전체 거래건수
+++ 더 추가해서 공부하기!
*연관규칙 - 향상도
*연관규칙 - 신뢰도
Q3. 확률분포
- 확률변수에서 기댓값 : x*f(x)들을 다 다해줌
Q4. F1값구하기
precision : 진짜라고 예측 중에 -> 실제 진짜
recall(재현율) = 민감도(sensitivity) : 실제 진짜 중에 -> 진짜라고 예측
F1 = 2* (precision * recall/ precision +recall)
Q7. Cluster - 계층적 군집
* 와드 연결법 : 군집간의 거리에 기반하는 다른 연결법과는 달리 군집 내의 오차제곱합에 기초하여 군집을 수행하는 계층적 군집분석의 거리 측정방법. / 계층적 군집내의 오차 제곱합에 기초하여 군집을 수행하는 군집방법
Q9. 계층적 군집의 거리 구하기
- 맨해튼 방법: 두 좌표의 절대값의 합으로 구한다.
a(100,5) b(50,7) ===> |100-50| + |5-7| = 52
cf)유클리드 방법: ( (100-50)**2 + (5-7)**2 ) **1/2Q
Q10. 척도의 종류
- 명목척도: 단순 특성 분류 ex)성별. 혈액형
- 서열(순위/순서)척도 ex)선호도,만족도,메달
- 등간(구간)척도 ex) 온도, 물가
- 비율정도 : 절대 0점이 존재
Q11. 공분산
- 2개의 확률변수의 선형관계를 나타냄
- 공분산 0이면 ==> 서로 독립, 관측값들이 4면에 균일하게 분포
- 헷갈리지 말자! 공분산을 -1 ~ 1 범위로 표준화 시킨 것이 상관계수
Q12. 회귀모형 - 회귀분석 가정 中 '등분산성' 위배
- 선형성: line(선)형. x 따라 y변화하는. y값은 기울기가 0인 직선이 이상적임
- 독립성: 잔차와 x값이 관련 X
- 정규성: 정규분포를 이루기
- 등분산성: 잔차항 분포가 동일한 분산
- 비상관성: 잔차끼리 상관 X
Q13. 중심극한 정리
- 모집단의 분포와 상관없이 표본크기(N)가 충분히 크면, 표본 평균의 분포가 정규분포와 근사함
- N이 최소 30이상 되어야 성립
Q15. 앙상블 모형
- 부스팅(Boosting): 이전 모델의 결과에 따라 -> 다음 모델 표본추출에서 분류가 잘못된 데이터 가중치를 부여하여 표본추출 (약간 패널티? 같은 것). 맞추기 어려운 문제를 맞추는데 focus. 이상치(Outlier)에 약함.
- 배깅(Bagging): 원본 데이터 집합에서 중복허용 크기가 같은 표본을 여러번 단순 임의 복원추출하여 -> 각표본에 대한 분류기를 생성 후 그 결과를 앙상블. -> So, 반복추출 방법을 사용하기 떄문에 같은 데이터가 한 표본에 여러번 추출될 가능성 / 한번도 추출되지 않을 가능성 있음
- 랜덤 포레스트: 배깅(Bagging) + Random 추가한 방법. 노드 내 데이터를 자식노드로 나누는 기준을 정할 때 설명변수(x값)의 일부분만 고려함으로 성능을 높이는 방법
'😆 Big Data > - 데이터' 카테고리의 다른 글
[ADsP] ADsP 예상문제 3과목 - 1 영상 공부하기 (0) | 2022.02.25 |
---|---|
[ADsP] ADsP 예상문제 3과목 - 4 영상 공부하기 (0) | 2022.02.24 |
[ADsP] ADsP 예상문제 3과목 - 3 영상 공부하기 (0) | 2022.02.24 |
[ADsP] ADsP 예상문제 3과목 - 6 영상 공부하기 (0) | 2022.02.23 |
[ADsP] 데이터분석준전문가 자격증 취득하기! (0) | 2022.01.29 |