728x90

pandas 16

대용량 csv 파일 pyarrow로 pandas 다루기 & excel 저장 (feat. 연구 데이터)

대용량 csv 파일 pyarrow로 pandas 전처리 &excel 저장 (feat. 연구 데이터) 의료데이터를 활용한 연구를 하게 되면, 시시각각 변하는 환자들의 상태들을 체크하고 AI 분석을 위해서는 tracking 시계열정보를 활용하게 된다. 그렇다보니, 그 tracking term 기준이 몇 초냐 몇 분이냐에 따라 데이터 용량이 천차만별이겠지만 그래도 대용량 데이터가 수집되었다는 사실은 변하지 않는다. 데이터 마이닝이 나의 main job은 아니지만, tracking time series data를 가명화 처리하는 과정으로 인해 대용량 data에 대해 접하게 되었다. 🍎 문제 상황 문제상황 1_ 가명화 처리를 위해서는 의료원의 가명화 프로그램을 활용해야하는데, 파일 업로드 상황에서는 excel 확..

의료 인공지능 데이터 분석 기본과정 - 2. Numpy,Pandas기초

의료 인공지능 데이터 분석 기본과정 - 2. Numpy, Pandas 기초 🍎 수업 목록 의외로 제일 약한 Numpy..... 거의 Pandas만 사용하기에 이번 기회에 numpy에 대해 되짚어보고 pandas 내에서도 remind가 필요한 pivot에 대해서도 되짚어보자 🍎 수업 내용 요약 https://github.com/LIMSONA/Medical_AI_Data_Analysis_Basic_Course/blob/main/numpy_pandas/README.md GitHub - LIMSONA/Medical_AI_Data_Analysis_Basic_Course: 의료 인공지능 데이터 분석 기본과정 연습 의료 인공지능 데이터 분석 기본과정 연습. Contribute to LIMSONA/Medical_AI_..

[Pandas] Pandas 연습 문제 풀기 -9 🐼 (시각화 중심-Seaborn, groupby, pivot_table 등)

Pandas 연습 문제 풀기 -8 🐼 전국 신규 민간 아파트 분양가격 동향¶ 데이터셋¶ 전국 평균 분양가격(2013년 9월부터 2015년 8월까지)¶ 전국 공동주택의 3.3제곱미터당 평균분양가격 데이터를 제공 주택도시보증공사_전국 평균 분양가격(2019년 12월)¶ 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공 지역별 평균값은 단순 산술평균값이 아닌 가중평균값임 In [1]: # 파이썬에서 쓸 수 있는 엑셀과도 유사한 판다스 라이브러리를 불러옵니다. import pandas as pd 데이터 로드¶ 최근 파일 로드¶ In [2]: import os os.listdir('./data') Out[2]: ['국가_대륙_별_상품군별_온라인쇼핑_해외직접판매액.csv', '전국 평..

[8주차] 🖥️데이터 EDA (Pandas, Matplotlib, Seaborn) 수업 & 시험

🐼 데이터분석 Skill 레벨업 EDA를 잘하기 위해서-!! 📈 EDA (Explorary Data Analysis, 탐색적 데이터 분석) 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 '탐색과 이해'를 기본으로 가져야 한다는 것! 데이터 EDA (Pandas, Matplotlib, Seaborn) Skill은 너무나 중요한 Skill이었다. 그렇기 때문에, 이번 주에 배운 것은 너무 값진 것이었다. 사실 판다스에 대해 나름 독학했다고 했지만, groupby/pivot_table 만들거나, stack/unstack는 많이 연습하지 않았는데 확실하게 잘 배울수 있었다 ㅎㅎㅎ 그래서 너---무 좋았다!🙂 🐼 EDA 시험 후기!! 시험은 T/F로... 엄청 쉽다고 했는데..... ..

[Pandas] EDA 자주 사용하는 코드 모아보기 😆

Pandas EDA 자주 사용하는 코드 모아보기 😆 지금까지 배우고 공부했던 pandas 함수를 정리해볼겸, EDA를 하면서 자주 사용했던 함수를 정리해보려한다. 😉 Basic import pandas as pd : 판다스 임포트 (Series와 DataFrame을 다루려면!) import numpy as np : 넘파이 임포트 -> 주로 np.nan (결측값)을 다루기 위해서 사용 import matplotlib.pyplot as plt : 맷플롯립 임포트 import seaborn as sns : 씨본 임포트 Pandas 자료구조 *df = 데이터 프레임 * df.index : df 인덱스 확인 * df.columns: df 열 확인 * df.values: df 값 확인 * df.shape: df 행..

[Pandas] Pandas 연습 문제 풀기 -8 🐼 (결측치, datetime, groupby 등)

Pandas 연습 문제 풀기 -8 🐼 In [1]: # 라이브러리 임포트 import pandas as pd 데이터 알아보기¶ In [2]: import os os.listdir('./data') Out[2]: ['2014-baby-names-illinois.csv', '2015-baby-names-illinois.csv', 'billboard.csv', 'country_timeseries.csv', 'nav_2018.csv', 'pew.csv', 'stock price.xlsx', 'stock valuation.xlsx', 'tb-raw.csv', 'titles.csv', 'weather.csv'] In [3]: # 파일 './data/nav_2018.csv'를 encoding='utf-8'으로 불러와..

[Pandas] Pandas 연습 문제 풀기 -7 🐼

Pandas 연습 문제 풀기 -7 🐼 실습¶ In [1]: # dataframe import pandas as pd # 인구수:population, 땅넓이: area, 수도:capital data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'], 'population': [11.3, 64.3, 81.3, 16.9, 64.9], 'area': [30510, 671308, 357050, 41526, 244820], 'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']} countries = pd.DataFrame(data) countries = cou..

[Pandas] Pandas 연습 문제 풀기 -6 🐼

Pandas 연습 문제 풀기 -6 🐼 필요한 라이브러리 임포트¶ In [1]: import pandas as pd import numpy as np [데이터] 확인¶ user_id 유저 아이디 age 나이 gender 성별 occupation 직업 zip_code 우편번호 파일 불러오기¶ read_csv를 통해 './data/users.csv'파일을 올바른 형태로 불러온 뒤 users에 저장해주세요. user_id를 인덱스로 설정해주세요. 열을 구분하는 구분자는 '|'임 In [2]: users = pd.read_csv("./data/users.csv", sep="|", index_col="user_id") users Out[2]: age gender occupation zip_code user_id 1..

[Pandas] Pandas 연습 문제 풀기 -5 🐼

Pandas 연습 문제 풀기 -5 🐼 필요한 라이브러리 임포트¶ In [1]: import pandas as pd import numpy as np 데이터 불러오기¶ read_csv를 통해 './data/drinks.csv'파일을 올바른 형태로 불러온 뒤 drinks 저장해주세요 In [2]: drinks = pd.read_csv('./data/drinks.csv') drinks Out[2]: country beer_servings spirit_servings wine_servings total_litres_of_pure_alcohol continent 0 Afghanistan 0 0 0 0.0 AS 1 Albania 89 132 54 4.9 EU 2 Algeria 25 0 14 0.7 AF 3 Ando..

[Pandas] 판다스 튜토리얼 (Pandas quickstart)공부해보기

판다스 공식홈페이지의 매뉴얼 공부를 해보자! 🐼 혹시나 넘파이 공부를 하고 싶다면!! 2022.02.02 - [😀 Language/- Python] - [numpy] 넘파이 튜토리얼 (NumPy quickstart)공부해보기 In [1]: from IPython.core.display import display, HTML display(HTML("")) #티스토리 업로드 원활하게:-) Pandas (Quickstart Tutorial)¶ 공부한 포스팅: https://laboputer.github.io/machine-learning/2020/04/07/pandas-10minutes/ 1. 기초개념¶ In [2]: # 필요한 모듈 불러오기 import pandas as pd import numpy as n..

728x90