[kaggle] 🤨시작하기 전 - 성인 인구조사 소득 예측 대회
- 과연 우리는 소득을 예측할 수 있을까?
데이터 분석 강의를 찾던 중, T-Academy채널에서 데이터 분석관련한 좋은 컨텐츠가 있는 걸 발견!
평소 kaggle 데이터를 활용하여 분석 실력을 쌓고 싶은 마음이 컸었기에,
이렇게 바로 나도 데이터분석 시작!
캐글 코리아에서 재작년 11월쯤에 열렸던 대회이다.
https://www.kaggle.com/c/kakr-4th-competition/overview
Description
한국과 마찬가지로 미국도 주기적으로 성인을 대상으로 한 여러 인구조사를 시행합니다.
이 대회는 1994년 미국 성인을 대상으로 조사한 데이터를 바탕으로 진행됩니다.
여러분은 이 데이터에서 각 사람의 소득을 예측하면 됩니다.
나이, 결혼 여부, 직종 등 총 14개의 feature를 통해 예측을 하면 됩니다.
예측해야 하는 값은 간단합니다.
- 연소득이 $50,000 이 넘는다면 1
- 연소득이 $50,000 이 넘지 않는다면 0
지금과 금액의 가치가 다르겠지만 최대한 여러분의 인사이트를 바탕으로 정확하게 예측하는 모델을 만들어봅시다.
Evaluation
Evaluation : F1 score
결과는 F1 score으로 측정합니다.
F1 score를 측정하기 위해서는 정밀도(Precision), 재현율(Recall)을 알아야 하며 다음 링크에 더 자세한 내용이 첨부되어 있습니다.
Submission Format
제출 양식이 이해되지 않는다면 Baseline Notebook을 참고해주세요.
제출 파일은 header를 제외한 X개의 행을 포함한 csv 파일로 제출해야 합니다.
파일은 열(column)이 2개 있습니다. (행과 열 등 파일 포맷에서 벗어나면 score가 나오지 않을 수 있습니다.)
- id : test.csv
- prediction : [소득이 50,000$을 넘는다면 1, 아니라면 0]
제출 파일은 다음의 포맷을 따릅니다.
id, prediction
1, 0
2, 0
3, 1
...
제출 포맷의 예시는 [Data 페이지]()에서 확인 및 다운로드 가능합니다.
Data
대회가 종료가 되어서 데이터를 다운이 안되었다!
하지만 열심히 구글링한 결과!! 미국에서 제공하고 있는 데이터임을 발견!
💾 다운받는 방법은??
1. 아래 링크 클릭!
https://archive.ics.uci.edu/ml/index.php
2. popular dataset에서 Adult라고 적힌 것 클릭!
3. Data folder 클릭
4. 아래 노랑색 하이라이트한 파일 다운!
* adult_test의 경우 test할 csv 파일
* adult_names의 경우 adult 데이터에 대한 설명이 있는 파일
* adult_data의 경우 train할 csv 파일
5. 파일이름과 확장명 설정해주기!
6. 이제 분석할 준비 끝!
'😎 프로젝트 만들기 > - EDA(kaggle,etc)' 카테고리의 다른 글
[kaggle][성인 인구조사 소득예측] 🐱💻 2. Deep EDA & Feature Engineering (0) | 2022.03.11 |
---|---|
[kaggle][성인 인구조사 소득예측] 🐱💻 1. 첫 캐글 EDA (0) | 2022.03.11 |
[pandas] 재도전! 수원시 종합병원데이터 전처리-1 (feat경기도데이터드림이 짱) (0) | 2022.01.30 |
[pandas] 수원시 종합병원 데이터 전처리 (현실 세계의 데이터는 오류 투성이....) (0) | 2022.01.29 |
[ELK] ELK활용 미니프로젝트 - 마무리하면서 느낀 점 (0) | 2021.12.24 |