728x90

😆 Big Data/- ML & DL 14

[ML]📊1. Auto-MPG 데이터 - 단순 회귀 분석하기(Simple Linear Regression)

[ML]📊1. Auto-MPG 데이터 - 단순 회귀 분석하기(Simple Linear Regression) Auto-MPG 데이터셋 소개 This dataset is a slightly modified version of the dataset provided in the StatLib library. In line with the use by Ross Quinlan (1993) in predicting the attribute "mpg", 8 of the original instances were removed because they had unknown values for the "mpg" attribute. The original dataset is available in the file "auto-..

[ML]🛳️원본 Titanic data로 머신러닝하기

kaggle이나 Seaborn에서 Titanic 데이터를 많이 접해봤을 것이다! 하지만 이 것들은 다 편집본 데이터! 원본 titanic 데이터를 얻었기에, 또 EDA를 멋드러지게 해봐야지! 보다보면 컬럼명이 무시무시한 것도 있다.... body... 번호같은... 타이타닉 탑승객 생존 예측 Classification with Python¶ In [1]: import pandas as pd import numpy as np import os import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings(action='ignore') In [2]: os.listdir() Out[2]: ['01SR_Da..

[ML]🚶‍♀️Simple purchase data로 머신러닝

[ML]🚶‍♀️Simple purchase data로 머신러닝 구매 예측하기!!¶ 1. package 가져오기¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import os import warnings warnings.filterwarnings(action='ignore') In [2]: os.listdir() Out[2]: ['01SR_Data.csv', '02.Classification_with_Python.ipynb', '03.Classification_with_scikitlearn(Titanic).ipynb', '.ipynb_checkpoints', '01.Re..

[ML]🚶‍♀️Simple salary data로 ML warm-up하기

🚶‍♀️Simple salary data로 ML warm-up하기 - 급여 예측하기! - 급여 예측하기!¶ 1. 패키지 호출¶ In [4]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import os In [45]: pd.__version__ Out[45]: '1.3.4' In [5]: os.listdir() Out[5]: ['01SR_Data.csv', '02.Classification_with_Python.ipynb', '03.Classification_with_scikitlearn(Titanic).ipynb', '.ipynb_checkpoints', '01.Regression..

[ML] 🤸 5. 피처 엔지니어링 (Feature Engineering)

🤸 피처 엔지니어링 (Feature Engineering) 🤸 1. 탐색적 자료분석 (EDA) *참고 사이트 : https://www.itl.nist.gov/div898/handbook/eda/section1/eda1.htm 1) 정의 - 탐색적 자료분석(Explorary Data Analysis, EDA)는 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법 🔍What is EDA ? 1. maximize insight into a data set; (데이터셋에 대한 통찰력 최대화) 2. uncover underlying structure; (근본적 구조 파악) 3. extract important variables; (중요한 변수 추출) 4. detect outliers and anomalie..

[ML] 🤸 4. 머신러닝 알고리즘 평가

🤸 머신러닝 알고리즘 평가 🤸 1. Bias / Error 1) Bias * Fitting: 실제값을 지나는 여러 개의 곡선이 존재 * 검증용 데이터를 고려한다면? Goodness of Fit 2) Error ① 과대적합(Overfitting): 모델이 훈련 데이터에 너무 잘 맞지만 일반성이 떨어질 때 발생 - 과대적합 해결방법: 훈련데이터를 더 많이 모은다. / 정규화시킨다. / 훈련데이터 잡음을 줄인다. ② 과소적합(Underfitting): 모델이 너무 단순해서 데이터의 내재된 구조를 학습하지 못할 때 발생 - 과소적합 해결방법: 파라미터가 더 많은 복잡한 모델을 선택한다. / 모델의 제약을 줄인다(=규제 하이퍼파라미터 값 줄인다.) / 과대적합 되기 전의 시점까지 충분히 학습한다. - 하이퍼파라미..

[ML] 🤸 3. 머신러닝 알고리즘

🤸 머신러닝 알고리즘 🤸 1. 인공신경망 주요 변천사 통계 (Statisticians) >> 기호기반 (Symbolists) >> 연결기반 (Connectionists) >> 유추기반 (Analogizers) >> 베이지안 (Bayesians) >> 진화기반 (Evolutionaries) >> 앙상블기반 (Ensembles) 2. 머신러닝 알고리즘 1) 통계 (Statisticians) : Parametric - Semi-parametric - Nonparametric : 인간의 지능과 두뇌 구조에 대한 고찰보다, 문제를 어떻게 통계적으로 풀어내는가에 더 관심을 가진다. * 설명변수와 반응변수에 따라 case 구분하기 * Case Ⅰ: Categorical Data Analysis 방법론 (예: 동질성 ..

[ML] 🤸 2. 머신러닝 데이터의 유형

🤸 머신러닝 데이터의 유형 🤸 1. 데이터 수집과 정의 - 각자 모형화를 진행하기 위해 데이터를 수집하는 부분을 담당한다고 가정 Q. 해당분석의 도메인에 대해 조사하고 분석의 중요성(또는 목표)에 대해 설명해 보시오 Q. 분석에 필요한 데이터를 어떻게 정의하면 좋을지 조사하시오 Q. 어떤 데이터가 수집될 수 있는지 예시를 작성하시오 2. 데이터 분류 1) 데이터 가공 정도별 ① 1차 자료: 원시자료 - 측정 데이터, 조사 데이터 ② 2차 자료: 가공자료 - 국가통계, 집계 데이터, 전망정보 2) 데이터 유형별 ① 정형 자료: 유형을 정의하여 분석에 활용가능 (수치형, 문자형) ② 비정형 자료: 정형화를 위한 별도의 가공이나 기준이 필요한자료들 (기록, 일지 등) 3) 데이터 표시 형식별 ① 연속형(con..

[ML] 🤸 1. 머신러닝의 개요

🤸 머신러닝 개요 🤸 1. 머신러닝의 정의 - 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 - 표현과 일반화에 중점을 두어서, 기본적으로 알고리즘을 이용해 데이버를 분석하고, 분석을 통한 학습, 학습을 기반으로 한 판단이나 예측이라고 할 수 있다. 표현이란 데이터의 평가이며, 일반화란 아직 알 수 없는 데이터에 대한 처리이다. 2. AI(인공지능) 정의 및 구현방법 1) AI(인공지능)의 정의 - 인공지능이란 컴퓨터가 인간의 행동을 모방할 수 있게 하는 모든 기술 2) AI(인공지능)의 구현방법 ① 합리주의: 특정분야의 전문가나 장인들이 학문을 연구하거나, 오랜 실무경험으로 터득한 지식을 사람이 직접 컴퓨터에 제공함. 하향식접근, 지식공학적 접근. 지식의 근원은..

[ML 알고리즘] 이상 탐지(Anomaly Detection) 알고리즘

이상탐지 알고리즘에 대한 내용이 너무 방대하기도 하고, 다 공부하기엔 바쁘다바빠현대사회에 살고있는 나이기에 잘 정리설명을 하는 유튜브강의를 선택하였다! 역시나 좋은 강의 ! 🎥 유튜브강의 주소 https://youtu.be/xPA6JyHFHew 🪄1. 이상 탐지 알고리즘 개요 1. 이상탐지란? (위키백과) - 이상 탐지(anomaly detection)는 일반적인 값과 다른 특이한 값(outlier)나 드문 사건을 탐지하는 기법이다. - 침입, 사기, 결함, 건강 이상, 범죄 등 다양한 것을 탐지할 수 있다. 2. 이상탐지가 필요한 이유는? - 우리 삶에서 발생하는 비정상인 이상치 및 이를 탐지하는 일을 줄임으로써, 사회적 비용 절감과 문제해결을 위해서 필요하다! 🪄2. 이상 탐지의 종류 ; 논문까지 찾..

728x90