728x90

😆 Big Data/- Data Platform 3

[pyspark] SyntaxError: 'ascii' codec can't encode character

SyntaxError: 'ascii' codec can't encode character pyspark에서 특수문자를 사용할 경우, 위와 같은 에러가 발생한다. 그리고 csv 내용 중 특수기호가 포함되어있을 경우 df.show( )를 한다면 또 위와 같은 에러가 발생한다. csv를 불러올 때 encoding 옵션을 설정해서 df를 지정해줘도 오류가 발생한다. 여기서 해결방법은?? 간단하다! 도커파일에 파이썬 encoding 환경변수 설정 한줄만 추가하면 된다. # 파이썬 인코딩 환경변수 설정하기 ENV PYTHONENCODING=utf8 쨔잔! program 열 내용중에 하트가 있어도 잘 불러온다! 💜

[데이터시각화] Kibana와 Grafana에 대해 알아보자-! 📊

데이터 로그 모니터링 시각화 오픈소스 도구로 많이 사용하는 Kibana와 Grafana !! 각각에 대해 알아보고, 차이점에 대해서 표로 알아보자 📊 1. 들어가기 전에 1) Kibana란? 🪢Kibana는 Elastic 회사에서 만든 데이터 시각화 오픈소스이다. 즉, Elasticsearch 데이터를 시각화하고 Elastic Stack을 탐색하게 해주는 무료 오픈 소스 인터페이스입니다. 🪢Kibana의 기능은 1. 탐색 및 시각화 : 시각화, 데이터 탐색, 대시보드, 공유 및 공동작업, 머신러닝 2. 관리 및 모니터링: 보안, 관리, 모니터링, 경보, 개발자 도구, 배포 3. 솔루션: ELASTIC MAPS/ LOGS/ MERICS/ UPTIME/ APM/ SECURITY/ ENTERPRISE SEAR..

[RDBMS] Maria DB에 대해 알아보자🦭

1. Maria DB란 MariaDB에서 만든 오픈소스 RDBMS 소프트웨어입니다. MySQL코드 기반으로한 오픈소스 RDBMS를 개발한 것이 지금의 MariaDB입니다. (*RDBMS란 관계형 데이터베이스를 생성하고 수정하고 관리할 수 있는 소프트웨어를 말한다.) MYSQL이 상업적으로 이용할 때 사용료를 내야하는데, 이렇게 고맙게도 오픈소스로 만들어주시다니 고마운 물개 🦭 2. Maria DB 특징은 1) MySQL 기반으로 만들어져서 SQL 명령문을 거의 그대로 사용가능하다. 2) MySQL에 비해 부분 속도가 약 4000~5000배나 빠르고, 성능도 최고 70% 향상을 보인다고 한다. 3) MySQL 엔터프라이즈에서 플러그인으로 제공한 스레드풀 기능이 내장됐으며, 스토리지 엔진을 활용한 샤딩 기술..

728x90