728x90

EDA 5

[kaggle][성인 인구조사 소득예측] 🐱‍💻 2. Deep EDA & Feature Engineering

[kaggle][성인 인구조사 소득예측] 🐱‍💻 2. Deep EDA & Feature Engineering 필요 라이브러리¶ In [1]: import os import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 오류 메세지 안뜨게 import warnings warnings.filterwarnings(action='ignore') In [2]: #한글 시각화 plt.rc("font", family="Malgun Gothic") 데이터 불러와서 확인하기¶ In [3]: os.listdir() Out[3]: ['.ipynb_checkpoints', '2. Deep EDA & Feature E..

[kaggle][성인 인구조사 소득예측] 🐱‍💻 1. 첫 캐글 EDA

[kaggle][성인 인구조사 소득예측] 🐱‍💻 1. 첫 캐글 도전 In [44]: # 기본 import os # 분석 라이브러리 import pandas as pd import numpy as np #시각호 라이브러리 import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns 데이터 불러오기¶ In [4]: # 파일 목록 os.listdir() Out[4]: ['.ipynb_checkpoints', 'adult_data.csv', 'adult_names.csv', 'adult_test.csv', '[Adult] 1. Basic EDA.ipynb'] In [5]: # 데이터 읽어오기 train = pd.read_csv('a..

[ML] 🤸 5. 피처 엔지니어링 (Feature Engineering)

🤸 피처 엔지니어링 (Feature Engineering) 🤸 1. 탐색적 자료분석 (EDA) *참고 사이트 : https://www.itl.nist.gov/div898/handbook/eda/section1/eda1.htm 1) 정의 - 탐색적 자료분석(Explorary Data Analysis, EDA)는 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법 🔍What is EDA ? 1. maximize insight into a data set; (데이터셋에 대한 통찰력 최대화) 2. uncover underlying structure; (근본적 구조 파악) 3. extract important variables; (중요한 변수 추출) 4. detect outliers and anomalie..

[Pandas] EDA 자주 사용하는 코드 모아보기 😆

Pandas EDA 자주 사용하는 코드 모아보기 😆 지금까지 배우고 공부했던 pandas 함수를 정리해볼겸, EDA를 하면서 자주 사용했던 함수를 정리해보려한다. 😉 Basic import pandas as pd : 판다스 임포트 (Series와 DataFrame을 다루려면!) import numpy as np : 넘파이 임포트 -> 주로 np.nan (결측값)을 다루기 위해서 사용 import matplotlib.pyplot as plt : 맷플롯립 임포트 import seaborn as sns : 씨본 임포트 Pandas 자료구조 *df = 데이터 프레임 * df.index : df 인덱스 확인 * df.columns: df 열 확인 * df.values: df 값 확인 * df.shape: df 행..

[pandas] 🍒모두를 위한 데이터사이언스 클론코딩하기-3.수치형변수

수치형 변수들을 잘 익혀두면 나중에 좋은 EDA를 할 수 있지않을까?란 생각에 코드를 써본당😉 In [3]: from IPython.core.display import display, HTML display(HTML("")) #티스토리 업로드 원활하게:-) 🍒모두를 위한 데이터사이언스 클론코딩하기-3🍒¶ Pandas 공부하기 라이브러리 로드¶ In [4]: import pandas as pd import seaborn as sns In [5]: pd.__version__ Out[5]: '1.3.4' In [6]: sns.__version__ Out[6]: '0.11.2' 데이터셋 불러오기¶ In [7]: #자동차 연비 데이터셋 불러오기 df = sns.load_dataset("mpg") In [8]: d..

728x90