😎 프로젝트 만들기/- EDA(kaggle,etc)

[pandas] 수원시 종합병원 데이터 전처리 (현실 세계의 데이터는 오류 투성이....)

또방91 2022. 1. 29. 02:59
728x90

 

 

 

 

 

 

🖥️데이터 전처리 - 데이터과학의 불편한 진실

 

데이터 분석을 하려면....

"데이터에 대한 오류를 검증이 꼭 필요하다"고 말했던 걸 뼈져리게 느꼈다😭😭😭😭😭😭

 

몇 시간의 노력이 물거품이 되었기때문!!🌪️

현실세계의 데이터는 오류 투성이임을 인식하라고 엄청엄청 수업시간에 강조하셨는데....

공공데이터포털에서 다운 받은 거니까 엄청 신뢰하고 있었는데 ㅠㅠ

힝.... 이게 모야

 

 

최근 읽었던 '빅데이터 분석과 활용' 책 중에 데이터 전처리에 대해 강조한 파트가 있었다.

 

데이터 사이언티스트 카밀 바르토차(Kamil Bartocha)는

저서 <데이터 과학의 불편한 진실(The Inconvenient Truth About Data Science)>

아래처럼 데이터의 성질을 11가지로 정리하였다. 

 

 The Inconvenient Truth About Data Science 

1. Data is never clean. 데이터는 절대 깨끗하지 않다.
2. You will spend most of your time cleaning and preparing data.  분석의 대부분 시간을 전처리 단계에서 보내게 될 것이다.
3. 95% of tasks do not require deep learning. 95%의 일은 딥러닝이 필요 없다
4. In 90% of cases generalized linear regression will do the trick.  분석의 90%는 일반화 선형 모형으로 해결된다.
5. Big Data is just a tool. 빅데이터는 단지 도구일 뿐이다
6. You should embrace the Bayesian approach. 베이지안 접근을 포용해야 한다.
7. No one cares how you did it. 당신이 어떤 방법을 사용했는가는 사용자 입장에서는 중요하지 않다.
8. Academia and business are two different worlds. 학계와 산업계는 서로 다른 세계다
9. Presentation is key - be a master of Power Point. 프리젠테이션이 핵심이다. 파워포인트의 마스터가 되어라!10. All models are false, but some are useful. 모든 모델은 틀렸다. 하지만 몇몇은 유용하다.
11. There is no fully automated Data Science. You need to get your hands dirty. 완전 자동화된 데이터 과학 같은 것은 없다. 인간이 개입되어야 할 부분이 있다.

 

 

 

 

 

그래도... 일단 주피터노트로 전처리한 과정을 첨부해본다.

🖥️Jupyter notebook 데이터 전처리 코드 

 

 

 

 

🍋위에 Out[121]에서의 지도는 안뜨는 것 같아서 캡쳐본을 첨부했다

 

 

🖥️ 원본 데이터 오류 발견

Out[99] 에서 나오는 데이터 프레임을 보면... 느꼈겠지만 ㅠㅠㅠ

 

1.  종합병원 분류라지만 실제 병원 데이터만 있는 게 아니다.

장례식장부터 의원까지... 종합병원 결과가 아니었다.

참고로 종합병원은 전제조건은 100병상이상이고, 그 이상이 어느정도이냐에 따라서 둬야하는 진료과목들이 있다.

 

2. 대학병원의 경우 기타병원에 들어가 있거나, 응급실이름으로 상호명이 들어가있다.

ex) 명의 이국종교수님이 계시는 유명한 아주대병원이 응급실로만 검색되는걸 알 수있다

 

 

 

🖥️ 마무리 하면서...

데이터의 품질과 전처리에서 대부분의 시간을 소비한다고 한다.....

데이터가 우리에게 원하는 대로 있지 않으니까말이다.

아주 지저분하고 아주 더티더티한 자료일테니까🥲🥲🥲🥲

그래서 된통 당했다.

데이터에 대한 오류는 항상 존재한다는 생각으로 접근해보자..

데이터에 대한 오류를 수정하지 않고 무턱대고 판다스를 통해 전처리를 해버리면, 분석 결과가 정확하지 않을 수 있다.

 

암튼 화이팅 !

728x90