728x90

😆 Big Data/- 데이터 9

데이터 분석 고도화를 위한 데이터 전처리 관련 자료 모아보기

https://pubdata.tistory.com/52 [데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 변환 [데이터 전처리] 결측치, 이상치, 잡음 처리, 데이터 통합, 데이터 변환 #missing value #outlier #noise 결측치 채워넣기 Missing Value Imputation 1) 중심 경향 값 넣기 (평균, 중앙값, 최빈값 등) - 분산이.. pubdata.tistory.com https://velog.io/@00springbom00/%EB%8D%B0%EC%9D%B4%ED%84%B0%EA%B3%BC%ED%95%99-%EA%B8%B0%EC%B4%88-4%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC 데이터과학 기초-(4)데..

[Power BI] 📊 1. Power BI 살펴보기

📊 Power BI 살펴보기 BI : 비즈니스 인텔리전스(Business Intelligence) • 기업에서 데이터를 수집, 정리, 분석하고 활용하여 효율적인 의사결정을 할 수 있는 방법에 대해 연구하는 학문 • 기업의 비전을 달성하기 위하여 비즈니스의 전략을 효율적이고 효과적으로 지원하여 각 조직의 구성원(종업원, 중간 관리자, 의사결정자 등)에게 적시에 의사결정을 할 수 있도록 지원하는 정보체계라고 정의 ) 📊 1. Power BI란? 데이터를 분석 및 시각화하여 신속한 의사결정을 할 수 있도록 Insight를 제공하는 클라우드 데이터 분석 서비스 다양한 유형의 데이터 원본 연결 및 데이터 정리, 분석 시각화 보고서를 작성하여 웹 및 모바일 장치에서 탐색 📊 2. Power BI 작업흐름 1) Po..

[ADsP] ADsP 예상문제 3과목 - 2 영상 공부하기

'ADsP 예상문제 3과목 - 2 영상' 공부하기 Q15. 데이터 전처리 - 스케일링 - Min-Max Nomalization: 데이터 전처리 방법 중 데이터를 일정범위로 Feature scaling 범위 0~1사이로 적용해주고 원 데이터 분포를 유지하는 정규화 방법 - Standardization: 평균 0, 표준편차 1인 표준 정규분포를 변환하는 것 Q16. 결측값(missing value)처리에 대한 대치법 - complete case analysis: 결측값은 삭제. 불완전 자료는 모두 무시하고 완전하게 관측된 자료만으로 표준적 통계기법에 의해 분석하는 방법 - 평균대치법(mean imputation): 관측/실험결과자료의 적절한 평균값으로 결측값 대치하여 완전한 자료로 만든 후,--> 완전한 자..

[ADsP] ADsP 예상문제 3과목 - 1 영상 공부하기

'ADsP 예상문제 3과목 - 1 영상' 공부하기 Q1. 모수적 추론 - F-분포 * F-분포란 : 두 집단의 분산이 같은 지를 검정할 때 사용된다. * 모평균과 표본평균과의 차이 : z-분포, t-분포 * 모분산과 표본분산과의 차이: F-분포(집단 2개), 카이제곱(x^2)분포(집단 1개) Q2. 집중화 경향 측정 - 집중 경향치(평균, 중앙값, 최빈값)에서 이상값 및 다른 관측값에 의한 영향에 민감한 것을 '평균'이다. Q3. 자료의 척도 - 명목척도: 단순히 대상특성 분류 / 확인 모적 - 서열척도: 대소/고저 등 순위만 제공, 양적비교불가 ex)금은동, 상중하 - 등간척도: 순위를 부여하되, 간격동일. 양적비교 가능 ex)기온, 물가지수 ----> 기온의 0도와 절대 0점과의 개념은 다르다. - ..

[ADsP] ADsP 예상문제 3과목 - 4 영상 공부하기

'ADsP 예상문제 3과목 - 4 영상' 공부하기 Q17. IQR Q3-Q1 Q19. 회귀모형 - 회귀분석 가정 中 '선형성' 위배 - 선형성: line(선)형. x 따라 y변화하는. 선형회귀에서 오차는 평균이 0이고 분산이 일정한 정규분포를 가정함 => y값은 Residuals선을 따라서기울기가 0인 직선이 이상적임 Q20. 교차분석(Cross Tabulation) - 두 변수(범주형) 간의 연관관계를 볼 떄 교차표 작성하여 변수들 간의 관계를 분석한다. - 사용 검정통계량 : 카이스퀘어 분포. 카이스퀘어 검정 - 교차표를 통해 두 변수의 값이 공유하고 있는 빈도수를 파악 ok Q21. 카이제곱 분포 - 연속형 확률분포 중 카이제곱 분포(x**2)는 분산의 특징을 확률분포로 만든 것! - 카이(x)는 ..

[ADsP] ADsP 예상문제 3과목 - 3 영상 공부하기

'ADsP 예상문제 3과목 - 3 영상' 공부하기 Q2. / Q3. 연관규칙 측정지표 - 신뢰도 빵-> 우유에 대한 신뢰도 : 빵+우유 거래수 / 빵 거래수 - 향상도 빵-> 유유에 대한 향상도 : 빵+우유 거래수 / (빵 거래수 * 우유 거래수) Q9. 확률적 표본 추출방법 - 단순무작위 추출: 모집단 개체가 표본으로 선택될 확률이 동일하게 추출 - 계통 추출: 일련번호를 부여한 후, 첫번째 표본 + 일정간격 (k) ex) 1/11/21/31/41/51... - 층화 추출: 모집단을 서로 겹치지 않게 몇개 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기 단수 무작위추출 - 군집 추출 Q14. 로지스틱 회귀모형 - 종속변수가 범주형인 경우 사용 - 모형탐색 방법으로 최대우도법(MLE)을 사용 - ..

[ADsP] ADsP 예상문제 3과목 - 6 영상 공부하기

'ADsP 예상문제 3과목 - 6 영상' 공부하기 Q16. 시계열 데이터 - 지수평활법 - 전체 시계열자료를 이용하여 평균을 구하고, 최근시계열에 더 큰 가중치를 적용하는 방법 - 지수 평활을 사용하여 얻은 예측값 -> 과거 관측값의 가중평균 - 과거관측값은 오래될수록 지수적으로 감소하는 가중치를 갖음 Q17. 모수적 추론 - T-test - 동일 개체에 어떤 처리를 하기 전후의 자료를 얻을 때, 차이 값에 대한 평균 검정을 위한 방법 - 가능한 동일 특성을 갖는 두 개체에 대해 서로 다른 처리를 하여 그 처리효과를 비교하는 방법 - ex) 같은 환자대상 약물 섭취 전후 변화 평균 조사 - 서로 다른 두 그룹의 평균을 비교하여 두 표본 차이가 있는지 검정하는 방법 Q18. 의사결정나무의 분리기준 - 분리..

[ADsP] ADsP 예상문제 3과목 - 5 영상 공부하기

'ADsP 예상문제 3과목 - 5 영상' 공부하기 Q1. 지니지수 - 불순도 측정을 위해 = 1 - 각 경우의 수의 제곱 합 Q2. 연관규칙 딸기->사과 지지도 * 연관규칙- 지지도: P(AUB) / N => 딸기,사과 구입한 거래건수 /전체 거래건수 +++ 더 추가해서 공부하기! *연관규칙 - 향상도 *연관규칙 - 신뢰도 Q3. 확률분포 - 확률변수에서 기댓값 : x*f(x)들을 다 다해줌 Q4. F1값구하기 precision : 진짜라고 예측 중에 -> 실제 진짜 recall(재현율) = 민감도(sensitivity) : 실제 진짜 중에 -> 진짜라고 예측 F1 = 2* (precision * recall/ precision +recall) Q7. Cluster - 계층적 군집 * 와드 연결법 : 군..

[ADsP] 데이터분석준전문가 자격증 취득하기!

데이터분석 준전문가(ADsP)란? 🍭데이터분석 준전문가(ADsP : Advanced Data Analytics Semi-Professional)란?? 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터분석 등의 직무를 수행하는 실무자를 말한다. 🍭응시자격 및 합격기준은?? 🍭 자세한 사항은? https://www.dataq.or.kr/www/sub/a_06.do 데이터자격시험 데이터분석 전문가 가이드는 데이터 이해, 데이터 처리 기술 이해 과목을 바탕으로 데이터분석 기획, 데이터분석, 데이터 시각화 등의 내용으로 구성되어 있다. 과목 주요내용 데이터 이해 데이 www.dataq.or.kr ADsP 접수하기 - !! ADsP 교재사기 - !! ; 가장 많이 사는 일명 민트책 ! 데이터에듀에서..

728x90