728x90

판다스 10

[Pandas] EDA 자주 사용하는 코드 모아보기 😆

Pandas EDA 자주 사용하는 코드 모아보기 😆 지금까지 배우고 공부했던 pandas 함수를 정리해볼겸, EDA를 하면서 자주 사용했던 함수를 정리해보려한다. 😉 Basic import pandas as pd : 판다스 임포트 (Series와 DataFrame을 다루려면!) import numpy as np : 넘파이 임포트 -> 주로 np.nan (결측값)을 다루기 위해서 사용 import matplotlib.pyplot as plt : 맷플롯립 임포트 import seaborn as sns : 씨본 임포트 Pandas 자료구조 *df = 데이터 프레임 * df.index : df 인덱스 확인 * df.columns: df 열 확인 * df.values: df 값 확인 * df.shape: df 행..

[Pandas] Pandas 연습 문제 풀기 -6 🐼

Pandas 연습 문제 풀기 -6 🐼 필요한 라이브러리 임포트¶ In [1]: import pandas as pd import numpy as np [데이터] 확인¶ user_id 유저 아이디 age 나이 gender 성별 occupation 직업 zip_code 우편번호 파일 불러오기¶ read_csv를 통해 './data/users.csv'파일을 올바른 형태로 불러온 뒤 users에 저장해주세요. user_id를 인덱스로 설정해주세요. 열을 구분하는 구분자는 '|'임 In [2]: users = pd.read_csv("./data/users.csv", sep="|", index_col="user_id") users Out[2]: age gender occupation zip_code user_id 1..

[Pandas] Pandas 연습 문제 풀기 -5 🐼

Pandas 연습 문제 풀기 -5 🐼 필요한 라이브러리 임포트¶ In [1]: import pandas as pd import numpy as np 데이터 불러오기¶ read_csv를 통해 './data/drinks.csv'파일을 올바른 형태로 불러온 뒤 drinks 저장해주세요 In [2]: drinks = pd.read_csv('./data/drinks.csv') drinks Out[2]: country beer_servings spirit_servings wine_servings total_litres_of_pure_alcohol continent 0 Afghanistan 0 0 0 0.0 AS 1 Albania 89 132 54 4.9 EU 2 Algeria 25 0 14 0.7 AF 3 Ando..

[Pandas] Pandas 연습 문제 풀기 -4 🐼

데이터 EDA를 위한 Pandas 역량기르기 타~임! 맛집 데이터를 정돈하기¶ In [1]: # 라이브러리 임포트 하기 import pandas as pd import matplotlib.pyplot as plt import os In [2]: os.listdir('./data') Out[2]: ['.ipynb_checkpoints', 'auto-mpg.csv', 'euro12.csv', 'Euro_2012_stats_TEAM.csv', 'matzipData.csv', '남북한발전전력량.xlsx', '소상공인시장진흥공단_상가업소정보_의료기관.csv', '주가데이터.xlsx'] In [3]: # './data/matzipData.csv'을 읽어서 df에 대입하기, 단 인코딩은 utf-8 df = pd.re..

[Pandas] Pandas 연습 문제 풀기 -3 🐼

데이터 EDA를 위한 Pandas 역량기르기 타~임! 필요한 라이브러리 임포트¶ In [2]: import pandas as pd import numpy as np import os In [3]: os.getcwd() Out[3]: 'C:\\sona\\KDT\\pandas\\Day_2' In [4]: os.listdir() Out[4]: ['.ipynb_checkpoints', 'auto-mpg.csv', 'Euro_2012_stats_TEAM.csv', 'Example-01.ipynb', 'matzipData.csv', 'Pandas-05.ipynb', 'Pandas-06.ipynb', '남북한발전전력량.xlsx', '소상공인시장진흥공단_상가업소정보_의료기관.csv', '연습03.ipynb', '연습0..

[pandas] 재도전! 수원시 종합병원데이터 전처리-1 (feat경기도데이터드림이 짱)

🙋‍♀️ 재도전! 수원시 종합병원데이터 전처리 -1 (feat. 경기도데이터드림이 짱) 이대론 포기할 수 없다!!! 다른 데이터자료 사이트에서 병원을 얻어보기로했다-!! 내가 찾은 사이트는 바로 '경기데이터드림' !! 각 지자체 데이터 사이트에서도 찾을 수 있으니 경기도지자체사이트로 접속했다. https://data.gg.go.kr/portal/adjust/selectThemeServicePage.do?infId=5E9F96P9YXCJ8ZTFHFF721022502&cateId=T101&infSeq=1&layout=1#none 경기도 병원 현황 | 테마 맞춤형 데이터 상세 Sheet | 경기데이터드림 경기도 내의 시군별 병원에 대한 의료기관명, 병상수, 의료인수, 입원실수 등의 현황입니다. ※최근1주이내 ..

[pandas] 수원시 종합병원 데이터 전처리 (현실 세계의 데이터는 오류 투성이....)

🖥️데이터 전처리 - 데이터과학의 불편한 진실 데이터 분석을 하려면.... "데이터에 대한 오류를 검증이 꼭 필요하다"고 말했던 걸 뼈져리게 느꼈다😭😭😭😭😭😭 몇 시간의 노력이 물거품이 되었기때문!!🌪️ 현실세계의 데이터는 오류 투성이임을 인식하라고 엄청엄청 수업시간에 강조하셨는데.... 공공데이터포털에서 다운 받은 거니까 엄청 신뢰하고 있었는데 ㅠㅠ 힝.... 이게 모야 최근 읽었던 '빅데이터 분석과 활용' 책 중에 데이터 전처리에 대해 강조한 파트가 있었다. 데이터 사이언티스트 카밀 바르토차(Kamil Bartocha)는 저서 에 아래처럼 데이터의 성질을 11가지로 정리하였다. The Inconvenient Truth About Data Science 1. Data is never clean. 데이터..

[pandas] 🍒모두를 위한 데이터사이언스 클론코딩하기-3.수치형변수

수치형 변수들을 잘 익혀두면 나중에 좋은 EDA를 할 수 있지않을까?란 생각에 코드를 써본당😉 In [3]: from IPython.core.display import display, HTML display(HTML("")) #티스토리 업로드 원활하게:-) 🍒모두를 위한 데이터사이언스 클론코딩하기-3🍒¶ Pandas 공부하기 라이브러리 로드¶ In [4]: import pandas as pd import seaborn as sns In [5]: pd.__version__ Out[5]: '1.3.4' In [6]: sns.__version__ Out[6]: '0.11.2' 데이터셋 불러오기¶ In [7]: #자동차 연비 데이터셋 불러오기 df = sns.load_dataset("mpg") In [8]: d..

[pandas] 🍒모두를 위한 데이터사이언스 클론코딩하기-2.기술통계

예전에 공부했던 판다스 코드를 클론코딩해보기! 2탄 마치 예전부터 알았던 것 마냥 얼른 복기해보자😉 In [1]: from IPython.core.display import display, HTML display(HTML("")) #티스토리 업로드 원활하게:-) 🍒모두를 위한 데이터사이언스 클론코딩하기-2🍒¶ 라이브러리 로드¶ In [5]: import pandas as pd import seaborn as sns In [6]: pd.__version__ Out[6]: '1.3.5' In [7]: sns.__version__ Out[7]: '0.11.2' 데이터셋 불러오기¶ In [8]: df = sns.load_dataset("mpg") In [9]: df Out[9]: mpg cylinders dis..

[pandas] 🍒모두를 위한 데이터사이언스 클론코딩하기-1

예전에 공부했던 판다스 코드를 클론코딩해보기! 마치 예전부터 알았던 것 마냥 얼른 복기해보자😉 In [1]: from IPython.core.display import display, HTML display(HTML("")) #티스토리 업로드 원활하게:-) 🍒모두를 위한 데이터사이언스 클론코딩하기-1🍒¶ Pandas 공부하기 라이브러리 로드¶ In [2]: import pandas as pd import seaborn as sns In [3]: pd.__version__ Out[3]: '1.3.4' In [4]: sns.__version__ Out[4]: '0.11.2' 데이터셋 불러오기¶ In [5]: #자동차 연비 데이터셋 불러오기 df = sns.load_dataset("mpg") In [6]: d..

728x90