728x90

😎 프로젝트 만들기/- EDA(kaggle,etc) 12

[kaggle][성인 인구조사 소득예측] 🐱‍💻 3. Raw File trimming (feat. 계속 바뀌는 환경)

[kaggle][성인 인구조사 소득예측] 🐱‍💻 3. Raw File trimming 필요 라이브러리¶ In [1]: import os import pandas as pd raw data 간단한 전처리 진행하기¶ In [2]: os.listdir() Out[2]: ['.ipynb_checkpoints', '1. Basic EDA.ipynb', '2. Deep EDA & Feature Engineering.ipynb', '3. Basic file trimming.ipynb', 'adult_data.csv', 'adult_names.txt', 'adult_test.csv', 'test.csv', 'train.csv'] 열 설정¶ In [3]: train = pd.read_csv("adult_data.csv"..

[kaggle][성인 인구조사 소득예측] 🐱‍💻 2. Deep EDA & Feature Engineering

[kaggle][성인 인구조사 소득예측] 🐱‍💻 2. Deep EDA & Feature Engineering 필요 라이브러리¶ In [1]: import os import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 오류 메세지 안뜨게 import warnings warnings.filterwarnings(action='ignore') In [2]: #한글 시각화 plt.rc("font", family="Malgun Gothic") 데이터 불러와서 확인하기¶ In [3]: os.listdir() Out[3]: ['.ipynb_checkpoints', '2. Deep EDA & Feature E..

[kaggle][성인 인구조사 소득예측] 🐱‍💻 1. 첫 캐글 EDA

[kaggle][성인 인구조사 소득예측] 🐱‍💻 1. 첫 캐글 도전 In [44]: # 기본 import os # 분석 라이브러리 import pandas as pd import numpy as np #시각호 라이브러리 import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns 데이터 불러오기¶ In [4]: # 파일 목록 os.listdir() Out[4]: ['.ipynb_checkpoints', 'adult_data.csv', 'adult_names.csv', 'adult_test.csv', '[Adult] 1. Basic EDA.ipynb'] In [5]: # 데이터 읽어오기 train = pd.read_csv('a..

[kaggle] 🤨시작하기 전 - 성인 인구조사 소득 예측 대회

[kaggle] 🤨시작하기 전 - 성인 인구조사 소득 예측 대회 - 과연 우리는 소득을 예측할 수 있을까? 데이터 분석 강의를 찾던 중, T-Academy채널에서 데이터 분석관련한 좋은 컨텐츠가 있는 걸 발견! 평소 kaggle 데이터를 활용하여 분석 실력을 쌓고 싶은 마음이 컸었기에, 이렇게 바로 나도 데이터분석 시작! 캐글 코리아에서 재작년 11월쯤에 열렸던 대회이다. https://www.kaggle.com/c/kakr-4th-competition/overview [T-Academy X KaKr] 성인 인구조사 소득 예측 대회 | Kaggle www.kaggle.com Description 한국과 마찬가지로 미국도 주기적으로 성인을 대상으로 한 여러 인구조사를 시행합니다. 이 대회는 1994년 미국..

[pandas] 재도전! 수원시 종합병원데이터 전처리-1 (feat경기도데이터드림이 짱)

🙋‍♀️ 재도전! 수원시 종합병원데이터 전처리 -1 (feat. 경기도데이터드림이 짱) 이대론 포기할 수 없다!!! 다른 데이터자료 사이트에서 병원을 얻어보기로했다-!! 내가 찾은 사이트는 바로 '경기데이터드림' !! 각 지자체 데이터 사이트에서도 찾을 수 있으니 경기도지자체사이트로 접속했다. https://data.gg.go.kr/portal/adjust/selectThemeServicePage.do?infId=5E9F96P9YXCJ8ZTFHFF721022502&cateId=T101&infSeq=1&layout=1#none 경기도 병원 현황 | 테마 맞춤형 데이터 상세 Sheet | 경기데이터드림 경기도 내의 시군별 병원에 대한 의료기관명, 병상수, 의료인수, 입원실수 등의 현황입니다. ※최근1주이내 ..

[pandas] 수원시 종합병원 데이터 전처리 (현실 세계의 데이터는 오류 투성이....)

🖥️데이터 전처리 - 데이터과학의 불편한 진실 데이터 분석을 하려면.... "데이터에 대한 오류를 검증이 꼭 필요하다"고 말했던 걸 뼈져리게 느꼈다😭😭😭😭😭😭 몇 시간의 노력이 물거품이 되었기때문!!🌪️ 현실세계의 데이터는 오류 투성이임을 인식하라고 엄청엄청 수업시간에 강조하셨는데.... 공공데이터포털에서 다운 받은 거니까 엄청 신뢰하고 있었는데 ㅠㅠ 힝.... 이게 모야 최근 읽었던 '빅데이터 분석과 활용' 책 중에 데이터 전처리에 대해 강조한 파트가 있었다. 데이터 사이언티스트 카밀 바르토차(Kamil Bartocha)는 저서 에 아래처럼 데이터의 성질을 11가지로 정리하였다. The Inconvenient Truth About Data Science 1. Data is never clean. 데이터..

[ELK] ELK활용 미니프로젝트 - 마무리하면서 느낀 점

💻 마무리하면서 느낀 점 1) ELK 설치 안내 블로그 글을 통해 동일하게 설정을 진행하다보니, 실제로 내가 생각하고 설정한 경로, 파일 형식 등이 아니었기에 초반 설정에 많은 시간을 소비가 되었다 ㅠㅠ 그리고 ELK 실행 순서 등 세세한 내용이 빠져있어서 오류발생이 잦았고, 이 또한 많은 시간을 소비가 엄청.....😂 그래서 elastic 가이드북의 설명을 통해, 데이터분석에서 내가 필요한 설정을 직접 정하여 시행하였고, 이후 원활한 프로그램 실행을 할 수 있었다. (2) 리눅스 명령어를 다루는 실력이 다소 부족하여 파일 권한설정 변경(chmod)이나 계정 변경에 있어서 다소 어려움이 있었기에, ELK프로젝트 도중 리눅스 공부를 한 후 수행해야하는 애로사항이 있었다. (3) 연도별 출생 수 data 필..

[ELK] ELK활용 미니프로젝트 - 시각화 및 대시보드 만들기

💻 시각화 및 대시보드 만들기 🥕1. stack management에서 index pattern 눌러 birth_year와 birth_generation 인덱스를 등록한다! 🥕2. Kibana - discover에 데이터 들어왔는지 확인해준다. 🥕3. Kibana - Visualize로 그래프를 그려준다. [예] birth_generation - 세대별로 H.Bar그래프 만들기 * Horizontal axis는 원하는 Generation col.값 선택 * Vertical axis는 Fileters로 월별 12개 추가하여 설정하기 - 세대별로 Dounut 그래프 만들기 * Slice by는 filters로 월별로(위에 H.bar처럼), Size by는 원하는 세대로 설정하기 - 세대통합 Stack are..

[ELK] ELK활용 미니프로젝트 - ELK 하나씩 구성해가기

💻 ELK 하나씩 구성해가기 ELK 설치가 다 되었다는 전제 하에 ELK 하나씩 구성해보자~ 설치에 관련해서는 이전에 발행했던 아래를 참고하면 된다! 2021.12.15 - [빅데이터/빅데이터 자료 공유] - [자료공유] Centos7 환경에서 Elastick stack 설치하기(elastic search, kibana, logstash, filebeats ) [자료공유] Centos7 환경에서 Elastick stack 설치하기(elastic search, kibana, logstash, filebeats ) 정말로... 고마운 분들이 많다............ 그러기에 나누고 싶은 맘!!! 어느 포스팅보다도 너무 좋았던 포스팅!!! 감사합니당 💕💕💕 🎀 Virtual Box & CentOS7 설치하기..

[ELK] ELK활용 미니프로젝트 - 데이터 전처리 (feat. pandas)

💻 데이터 전처리 내려받은 자료는 내가 원하는 필터링을 거쳐 수집이 가능하긴 했지만 아쉽게도 내가 원하는 형태로는 수집받지 못했다...😥 그러니 이럴 때 필요한 건 뭐다?? 데이터 전처리!!!!! 다행히 pandas 공부를 조금 했어서 데이터 전처리를 통해 원하는 형태를 만들 수 있었다. 바로바로 디버깅을 하면서 처리가 잘되어 가고 있나 화인하기 위해, 바로 VS code로 작성하지 않고 colab을 사용하여 확인하면서 전처리를 해나갔다. 전처리 1차로는 형식으로 데이터 프레임을 뽑고 전처리 2차로는 형식으로 데이터 프레임을 뽑을 것이다. ** Github에 들어가면 중간중간 실행결과가 뜨니 꼭 들어가 참고해보길 바란다!! df1(연도별): https://git..

728x90