😆 Big Data/- 데이터

[ADsP] ADsP 예상문제 3과목 - 6 영상 공부하기

또방91 2022. 2. 23. 17:28
728x90

'ADsP 예상문제 3과목 - 6 영상' 공부하기

 

 

Q16. 시계열 데이터 - 지수평활법

- 전체 시계열자료를 이용하여 평균을 구하고, 최근시계열에 더 큰 가중치를 적용하는 방법

- 지수 평활을 사용하여 얻은 예측값 -> 과거 관측값의 가중평균

- 과거관측값은 오래될수록 지수적으로 감소하는 가중치를 갖음

 

Q17. 모수적 추론 - T-test

<대응표본  t-검정>

- 동일 개체에 어떤 처리를 하기 전후의 자료를 얻을 때, 차이 값에 대한 평균 검정을 위한 방법

- 가능한 동일 특성을 갖는 두 개체에 대해 서로 다른 처리를 하여 그 처리효과를 비교하는 방법

- ex) 같은 환자대상 약물 섭취 전후 변화 평균 조사

<독립표본 t-test>

- 서로 다른 두 그룹의 평균을 비교하여 두 표본 차이가 있는지 검정하는 방법

 

Q18. 의사결정나무의 분리기준

- 분리기준: 순수도가 높아지게 = 불확실성이 낮아지게

- 이산형 목표변수의 경우: 지니지수/엔트로피지수/카이제곱 통계량의 p-value 가장작은 값

- 연속형 목표변수의 경우: 분산의 감소량을 최대화 

 

Q20. 신경망모형(Neural Network) - 활성화 함수

- 활성화 함수(activation function)

- 신경망에서 결괏값(출력)을 내보낼 떄 사용하는 함수로, 가중치 값을 학습할 때 에러가 적게 나도록 도움

- 풀고자 하는 문제 종류에 따라 활성화 함

- 종류

계단함수 0 또는 1 결과
부호함수 -1 또는 1 결과
선형함수  - 
sigmoid 함수 연속형 0~1, Logistic 함수라 불리기도 함

softmax 함수 * 모든 logits의 합이 1이 되도록 output을 정규화
* sigmoid 함수의 일반화된 형태로 결과가 모두 범주인 경우 사용
* 각 범주에 속할 사후 확률을 제공하는 활성화 함수
* 주로 3개 이상 분류시 사용한다.

 

Q21. 회귀분석

- 표본회귀선의 유의성 검정: 회귀선의 기울기 계수가 귀무가설 = 0 / 대립가설!=0 으로 설정

- 회귀분석의 모형검정은 F-test, T-test

- 로지스틱 회귀분석의 모형 탐색방법은 최대우도법

 

Q23. 오분류율(Error Rate)

- 전체 예측에서 틀린 예측의 비율

- (= 1-accuracy(정확도) )

 

Q24. Scree plot

- 그래프에서 각이 꺾이는 부분의 개수가  --> 주성분 분석에서의 적절한 개수이다!

 

+추가: 주성분 분석 표

- Standard deviation(표준편차): 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근, 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다.

- Proportion of Variance(분산비율): 각 분산이 전체 분산에서 차지하는 비중, 각 자료들의 분산비율을 합치면 누적비율이 된다.

- Cumulative Proportion(누적비율): 분산의 누적 비율 주성분 분석에서 누적기여율이 85% 이상이면 주성분의 수로 결정할 수 있다. 

 

Q26. 로지스틱 회귀분석 - logit 변환

- 어떤 일이 일어날 확률에 일어나지 않을 확률로 나누어 log를 취하여 값의 범위를 전체 실수범위로 확장하는 변환방법

- 반응변수(=종속변수, 목표변수) 범위를 -무한대 부터 +무한대까지 변활 할수 있음

728x90