😎 프로젝트 만들기/- EDA(kaggle,etc)

[kaggle] 🤨시작하기 전 - 성인 인구조사 소득 예측 대회

또방91 2022. 3. 7. 10:18
728x90

 

 

 

 

 

 

 

 

[kaggle] 🤨시작하기 전 - 성인 인구조사 소득 예측 대회

- 과연 우리는 소득을 예측할 수 있을까? 

 

 

 

데이터 분석  강의를 찾던 중, T-Academy채널에서 데이터 분석관련한 좋은 컨텐츠가 있는 걸 발견!

평소 kaggle 데이터를 활용하여 분석 실력을 쌓고 싶은 마음이 컸었기에, 

이렇게 바로 나도 데이터분석 시작!

 

캐글 코리아에서 재작년 11월쯤에 열렸던 대회이다.

 

 

 


 

 

 

https://www.kaggle.com/c/kakr-4th-competition/overview

 

[T-Academy X KaKr] 성인 인구조사 소득 예측 대회 | Kaggle

 

www.kaggle.com

 

Description

 

한국과 마찬가지로 미국도 주기적으로 성인을 대상으로 한 여러 인구조사를 시행합니다.
이 대회는 1994년 미국 성인을 대상으로 조사한 데이터를 바탕으로 진행됩니다.

여러분은 이 데이터에서 각 사람의 소득을 예측하면 됩니다.

나이, 결혼 여부, 직종 등 총 14개의 feature를 통해 예측을 하면 됩니다.
예측해야 하는 값은 간단합니다.

  • 연소득이 $50,000 이 넘는다면 1
  • 연소득이 $50,000 이 넘지 않는다면 0

지금과 금액의 가치가 다르겠지만 최대한 여러분의 인사이트를 바탕으로 정확하게 예측하는 모델을 만들어봅시다.

 

 

Evaluation

Evaluation : F1 score

결과는 F1 score으로 측정합니다.

F1 score를 측정하기 위해서는 정밀도(Precision), 재현율(Recall)을 알아야 하며 다음 링크에 더 자세한 내용이 첨부되어 있습니다.

Submission Format

제출 양식이 이해되지 않는다면 Baseline Notebook을 참고해주세요.

제출 파일은 header를 제외한 X개의 행을 포함한 csv 파일로 제출해야 합니다.
파일은 열(column)이 2개 있습니다. (행과 열 등 파일 포맷에서 벗어나면 score가 나오지 않을 수 있습니다.)

  • id : test.csv
  • prediction : [소득이 50,000$을 넘는다면 1, 아니라면 0]

제출 파일은 다음의 포맷을 따릅니다.

id, prediction
1, 0
2, 0
3, 1
...

제출 포맷의 예시는 [Data 페이지]()에서 확인 및 다운로드 가능합니다.

 

 

 

 Data 

대회가 종료가 되어서 데이터를 다운이 안되었다!

하지만 열심히 구글링한 결과!! 미국에서 제공하고 있는 데이터임을 발견!

 

💾 다운받는 방법은??

1. 아래 링크 클릭!

https://archive.ics.uci.edu/ml/index.php

 

UCI Machine Learning Repository

Welcome to the UC Irvine Machine Learning Repository! We currently maintain 622 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou

archive.ics.uci.edu

 

2. popular dataset에서 Adult라고 적힌 것 클릭!

 

3. Data folder 클릭

 

4. 아래 노랑색 하이라이트한 파일 다운!

* adult_test의 경우 test할 csv 파일

* adult_names의 경우 adult 데이터에 대한 설명이 있는 파일

* adult_data의 경우 train할 csv 파일

 

5. 파일이름과 확장명 설정해주기!

 

6. 이제 분석할 준비 끝!

 

728x90