대용량 csv 파일 pyarrow로 pandas 전처리 &excel 저장 (feat. 연구 데이터) 의료데이터를 활용한 연구를 하게 되면, 시시각각 변하는 환자들의 상태들을 체크하고 AI 분석을 위해서는 tracking 시계열정보를 활용하게 된다. 그렇다보니, 그 tracking term 기준이 몇 초냐 몇 분이냐에 따라 데이터 용량이 천차만별이겠지만 그래도 대용량 데이터가 수집되었다는 사실은 변하지 않는다. 데이터 마이닝이 나의 main job은 아니지만, tracking time series data를 가명화 처리하는 과정으로 인해 대용량 data에 대해 접하게 되었다. 🍎 문제 상황 문제상황 1_ 가명화 처리를 위해서는 의료원의 가명화 프로그램을 활용해야하는데, 파일 업로드 상황에서는 excel 확..