728x90

😆 Big Data 70

[ELK] ⚒️12장 리눅스 실습 환경구성 - (Ubuntu + VM VirtualBox)

12장 리눅스 실습 환경구성 - (Ubuntu + VM VirtualBox) - 12.1 버추얼박스에서 우분트 설치하기 - 교재의 가장 처음부터가 아닌 , 461쪽 을 가장 먼저 시작하려한다. 평소 VM virtualbox + 리눅스 CentOS7으로 환경구성을 한 뒤 ELK를 설치했지만, Ubuntu를 사용하고 싶어서!! 일단 VM VirtualBox는 설치하는 방법은 쉬우니, Ubuntu 설치부터 포스팅해보려한다! (*버추얼박스 설정은 특별히 수정할 것이 없다. 그냥 다운로드 받아서 설치만 하면 된다.) 현재 나의 버츄얼박스 버젼은 6.1.32 ⚒️12.1.1 우분트 다운로드 1. 구글 검색창에 'ubuntu' 검색하기 - 다운로드 페이지가 가장 먼저 나온다. 클릭해서 접속! https://ubunt..

[ELK] 『엘라스틱 스택 개발부터 운영까지』좋은 책 발견!!😳

『 엘라스틱 스택 개발부터 운영까지 』 데이터 수집, 변환, 분석, 시각화를 위한 엘라스틱서치, 로그스태시, 비츠, 키바나의 모든 것 📖 왜 이 책을 읽기 시작했나.....? * 나에게 ELK STACK은 - 2~3주간 배웠던 데이터 파이프라인 구축을 배우면서, ELK STACK이 엄청 좋은 플랫폼이라는 걸 깨달았기 때문에 ! - 나의 Tech skill로 습득하고 싶은 것! * ELK에 대해 너무 잘 소개 되었기에! - 최신 version의 ELK STACK을 기준으로 설명해줌 - 직접 실습할 수 있는 예제들이 잘 되어있기에! 📖 차례 1부 | 엘라스틱 스택 개요 1장 엘라스틱 스택이란 2장 윈도우 실습 환경 구성 2부 | 엘라스틱 스택 구성요소 4장 엘라스틱서치: 검색 5장 엘라스틱서치: 집계 6장 ..

[ADsP] ADsP 예상문제 3과목 - 2 영상 공부하기

'ADsP 예상문제 3과목 - 2 영상' 공부하기 Q15. 데이터 전처리 - 스케일링 - Min-Max Nomalization: 데이터 전처리 방법 중 데이터를 일정범위로 Feature scaling 범위 0~1사이로 적용해주고 원 데이터 분포를 유지하는 정규화 방법 - Standardization: 평균 0, 표준편차 1인 표준 정규분포를 변환하는 것 Q16. 결측값(missing value)처리에 대한 대치법 - complete case analysis: 결측값은 삭제. 불완전 자료는 모두 무시하고 완전하게 관측된 자료만으로 표준적 통계기법에 의해 분석하는 방법 - 평균대치법(mean imputation): 관측/실험결과자료의 적절한 평균값으로 결측값 대치하여 완전한 자료로 만든 후,--> 완전한 자..

[ADsP] ADsP 예상문제 3과목 - 1 영상 공부하기

'ADsP 예상문제 3과목 - 1 영상' 공부하기 Q1. 모수적 추론 - F-분포 * F-분포란 : 두 집단의 분산이 같은 지를 검정할 때 사용된다. * 모평균과 표본평균과의 차이 : z-분포, t-분포 * 모분산과 표본분산과의 차이: F-분포(집단 2개), 카이제곱(x^2)분포(집단 1개) Q2. 집중화 경향 측정 - 집중 경향치(평균, 중앙값, 최빈값)에서 이상값 및 다른 관측값에 의한 영향에 민감한 것을 '평균'이다. Q3. 자료의 척도 - 명목척도: 단순히 대상특성 분류 / 확인 모적 - 서열척도: 대소/고저 등 순위만 제공, 양적비교불가 ex)금은동, 상중하 - 등간척도: 순위를 부여하되, 간격동일. 양적비교 가능 ex)기온, 물가지수 ----> 기온의 0도와 절대 0점과의 개념은 다르다. - ..

[ADsP] ADsP 예상문제 3과목 - 4 영상 공부하기

'ADsP 예상문제 3과목 - 4 영상' 공부하기 Q17. IQR Q3-Q1 Q19. 회귀모형 - 회귀분석 가정 中 '선형성' 위배 - 선형성: line(선)형. x 따라 y변화하는. 선형회귀에서 오차는 평균이 0이고 분산이 일정한 정규분포를 가정함 => y값은 Residuals선을 따라서기울기가 0인 직선이 이상적임 Q20. 교차분석(Cross Tabulation) - 두 변수(범주형) 간의 연관관계를 볼 떄 교차표 작성하여 변수들 간의 관계를 분석한다. - 사용 검정통계량 : 카이스퀘어 분포. 카이스퀘어 검정 - 교차표를 통해 두 변수의 값이 공유하고 있는 빈도수를 파악 ok Q21. 카이제곱 분포 - 연속형 확률분포 중 카이제곱 분포(x**2)는 분산의 특징을 확률분포로 만든 것! - 카이(x)는 ..

[ADsP] ADsP 예상문제 3과목 - 3 영상 공부하기

'ADsP 예상문제 3과목 - 3 영상' 공부하기 Q2. / Q3. 연관규칙 측정지표 - 신뢰도 빵-> 우유에 대한 신뢰도 : 빵+우유 거래수 / 빵 거래수 - 향상도 빵-> 유유에 대한 향상도 : 빵+우유 거래수 / (빵 거래수 * 우유 거래수) Q9. 확률적 표본 추출방법 - 단순무작위 추출: 모집단 개체가 표본으로 선택될 확률이 동일하게 추출 - 계통 추출: 일련번호를 부여한 후, 첫번째 표본 + 일정간격 (k) ex) 1/11/21/31/41/51... - 층화 추출: 모집단을 서로 겹치지 않게 몇개 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기 단수 무작위추출 - 군집 추출 Q14. 로지스틱 회귀모형 - 종속변수가 범주형인 경우 사용 - 모형탐색 방법으로 최대우도법(MLE)을 사용 - ..

[ADsP] ADsP 예상문제 3과목 - 6 영상 공부하기

'ADsP 예상문제 3과목 - 6 영상' 공부하기 Q16. 시계열 데이터 - 지수평활법 - 전체 시계열자료를 이용하여 평균을 구하고, 최근시계열에 더 큰 가중치를 적용하는 방법 - 지수 평활을 사용하여 얻은 예측값 -> 과거 관측값의 가중평균 - 과거관측값은 오래될수록 지수적으로 감소하는 가중치를 갖음 Q17. 모수적 추론 - T-test - 동일 개체에 어떤 처리를 하기 전후의 자료를 얻을 때, 차이 값에 대한 평균 검정을 위한 방법 - 가능한 동일 특성을 갖는 두 개체에 대해 서로 다른 처리를 하여 그 처리효과를 비교하는 방법 - ex) 같은 환자대상 약물 섭취 전후 변화 평균 조사 - 서로 다른 두 그룹의 평균을 비교하여 두 표본 차이가 있는지 검정하는 방법 Q18. 의사결정나무의 분리기준 - 분리..

[ADsP] ADsP 예상문제 3과목 - 5 영상 공부하기

'ADsP 예상문제 3과목 - 5 영상' 공부하기 Q1. 지니지수 - 불순도 측정을 위해 = 1 - 각 경우의 수의 제곱 합 Q2. 연관규칙 딸기->사과 지지도 * 연관규칙- 지지도: P(AUB) / N => 딸기,사과 구입한 거래건수 /전체 거래건수 +++ 더 추가해서 공부하기! *연관규칙 - 향상도 *연관규칙 - 신뢰도 Q3. 확률분포 - 확률변수에서 기댓값 : x*f(x)들을 다 다해줌 Q4. F1값구하기 precision : 진짜라고 예측 중에 -> 실제 진짜 recall(재현율) = 민감도(sensitivity) : 실제 진짜 중에 -> 진짜라고 예측 F1 = 2* (precision * recall/ precision +recall) Q7. Cluster - 계층적 군집 * 와드 연결법 : 군..

[데이터 사이트] ✨공공데이터 이외 데이터 찾는 방법 (추천사이트)

🙃 찾게된 이유 '공공'이란 이름이 붙어서 인지 좀더 개인적인 정보들이 부족해서, 데이터 분석하기에 실제감이 확 와닿지 않았다. 최근 들어서야, 데이터의 가명 처리에 대해 많은 논의가 되고 이에따라 데이터 변환 및 제공이 되고 있기에 공공데이터 말고 다른 곳에서 데이터를 찾아보려는 노력을 하였다! ----> 그 결과 보물과도 같은 사이트 몇개를 찾았다! 💎 🌞 1. 일단 ' 공공데이터 ' 사이트 List >> 바로 '공공 데이터' 이외 사이트 내용으로 JUMP 하려면 왼쪽 목차 '2번' 클릭🖱 > 흔히 아래와 같은 공공 사이트는 많이 알고 있을 것이다... > 그래도 모르는 사람들도 있을 수 있으니 공유 👇👇 * 공공데이터포털 www.data.go.kr 공공데이터 포털 국가에서 보유하고 있는 다양한 데이..

[데이터시각화] Kibana와 Grafana에 대해 알아보자-! 📊

데이터 로그 모니터링 시각화 오픈소스 도구로 많이 사용하는 Kibana와 Grafana !! 각각에 대해 알아보고, 차이점에 대해서 표로 알아보자 📊 1. 들어가기 전에 1) Kibana란? 🪢Kibana는 Elastic 회사에서 만든 데이터 시각화 오픈소스이다. 즉, Elasticsearch 데이터를 시각화하고 Elastic Stack을 탐색하게 해주는 무료 오픈 소스 인터페이스입니다. 🪢Kibana의 기능은 1. 탐색 및 시각화 : 시각화, 데이터 탐색, 대시보드, 공유 및 공동작업, 머신러닝 2. 관리 및 모니터링: 보안, 관리, 모니터링, 경보, 개발자 도구, 배포 3. 솔루션: ELASTIC MAPS/ LOGS/ MERICS/ UPTIME/ APM/ SECURITY/ ENTERPRISE SEAR..

728x90