728x90

😆 Big Data 70

[pyspark] SyntaxError: 'ascii' codec can't encode character

SyntaxError: 'ascii' codec can't encode character pyspark에서 특수문자를 사용할 경우, 위와 같은 에러가 발생한다. 그리고 csv 내용 중 특수기호가 포함되어있을 경우 df.show( )를 한다면 또 위와 같은 에러가 발생한다. csv를 불러올 때 encoding 옵션을 설정해서 df를 지정해줘도 오류가 발생한다. 여기서 해결방법은?? 간단하다! 도커파일에 파이썬 encoding 환경변수 설정 한줄만 추가하면 된다. # 파이썬 인코딩 환경변수 설정하기 ENV PYTHONENCODING=utf8 쨔잔! program 열 내용중에 하트가 있어도 잘 불러온다! 💜

[dockerfile] ModuleNotFoundError: No module named 'py4j' & pyspark 환경변수 작성하기

py4j 오류 해결하기 먼저 -!! 🍭1) 우분투 18.04에서 기본 제공하는 python ver 3.6.9 말고 파이썬 기본값 ver을 3.8.5로 설정하였다! ( 즉, python -V 으로 확인했을 때 3.8.5로 나오는 걸 말한다!) * python 기본값 ver설정 방법이 궁금하다면 아래글 참고해주세요~ 2022.05.22 - [😆 Big Data/- Docker] - [Dockerfile] 우분투 18.04 & 파이썬 3.8 설치 & python 기본값 변경하기 🍭2) pyspark 파이썬 기본ver은 python과 같은 ver으로 설정했다, ModuleNotFoundError: No module named 'py4j 3.8.5로 설정해줬지만....... 아래와 같은 오류가!!!!! 뜨아.....

[docker command] docker 이미지 / 컨테이너 조건 삭제 명령어

dockerhub 이미지를 사용하지않고, 직접 dockerfile을 만들고 있다면.... 아래 명령어가 유용할 거다! 1. docker image * 으로 되어있는 이미지 삭제 docker rmi -f $(docker images -f "dangling=true" -q) 2. docker container * 랜덤이미지로 생성된 도커컨테이너 삭제 - status가 exited인 경우 docker rm $(docker ps -a -q -f status=exited) - status가 created인 경우 docker rm $(docker ps -a -q -f status=created)

[Dockerfile] 우분투 18.04 & 파이썬 3.8 설치 & python 기본값 변경하기

우분투 파이썬 버젼 설치 & 변경하기 👉들어가기 전 ! Ubuntu 18.04 설치된 환경에서 파이썬 ver. & 파이썬 설치 위치 & 설치된 파이썬 버젼 모두 확인하려면?? # 파이썬 version 확인하기 python -V # 파이썬 설치 위치 확인하기 which python # 설치되어있는 파이썬 확인하기 # 위 코드식인 which python을 통해 설치경로는 /usr/bin 일테니, 아래 코드식으로 확인가능! ls /usr/bin/ | grep python 우분투에서 기본 지원하는 파이썬 기본값은 3.6.9로 되어있다. 그래서 설치된 파이썬을 확인하게 되면 아래와 같을 거다 👉설치해보자! * python3.8.5로 설치하는 경우 # 1. wget으로 파이썬3.8.5압축파일 다운 wget http..

[ML]📊1. Auto-MPG 데이터 - 단순 회귀 분석하기(Simple Linear Regression)

[ML]📊1. Auto-MPG 데이터 - 단순 회귀 분석하기(Simple Linear Regression) Auto-MPG 데이터셋 소개 This dataset is a slightly modified version of the dataset provided in the StatLib library. In line with the use by Ross Quinlan (1993) in predicting the attribute "mpg", 8 of the original instances were removed because they had unknown values for the "mpg" attribute. The original dataset is available in the file "auto-..

[ML]🛳️원본 Titanic data로 머신러닝하기

kaggle이나 Seaborn에서 Titanic 데이터를 많이 접해봤을 것이다! 하지만 이 것들은 다 편집본 데이터! 원본 titanic 데이터를 얻었기에, 또 EDA를 멋드러지게 해봐야지! 보다보면 컬럼명이 무시무시한 것도 있다.... body... 번호같은... 타이타닉 탑승객 생존 예측 Classification with Python¶ In [1]: import pandas as pd import numpy as np import os import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings(action='ignore') In [2]: os.listdir() Out[2]: ['01SR_Da..

[ML]🚶‍♀️Simple purchase data로 머신러닝

[ML]🚶‍♀️Simple purchase data로 머신러닝 구매 예측하기!!¶ 1. package 가져오기¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import os import warnings warnings.filterwarnings(action='ignore') In [2]: os.listdir() Out[2]: ['01SR_Data.csv', '02.Classification_with_Python.ipynb', '03.Classification_with_scikitlearn(Titanic).ipynb', '.ipynb_checkpoints', '01.Re..

[ML]🚶‍♀️Simple salary data로 ML warm-up하기

🚶‍♀️Simple salary data로 ML warm-up하기 - 급여 예측하기! - 급여 예측하기!¶ 1. 패키지 호출¶ In [4]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import os In [45]: pd.__version__ Out[45]: '1.3.4' In [5]: os.listdir() Out[5]: ['01SR_Data.csv', '02.Classification_with_Python.ipynb', '03.Classification_with_scikitlearn(Titanic).ipynb', '.ipynb_checkpoints', '01.Regression..

[Azure] 👩‍💻1. 기본 개념 - 클라우드, 클라우드 컴퓨팅, 온프레미스

👩‍💻 1. 기본 개념 - 클라우드, 클라우드 컴퓨팅, 온프레미스 https://zdnet.co.kr/view/?no=20220311091349 MS 애저, 대형기업 채택률에서 AWS 앞섰다 마이크로소프트 애저 사업이 아마존웹서비스(AWS)보다 대형 기업 고객층에서 앞선다는 조사결과가 나왔다.10일(현지시간) 미국 지디넷에 따르면, IT관리 전문회사 플렉세라는 ... zdnet.co.kr 한동안 AWS에 대해서만 관심을 갖다가, 머신러닝 과정에서 MS Azure 가상머신과 머신러닝 등에 대해 배워가고 위와 같은 기사를 접하면서 MS Azure에 대해서도 알아보았다. 1. '클라우드', '클라우드 컴퓨팅' 그리고 '온프레미스' Azures 클라우드 컴퓨팅을 제공하는 서비스이다. 클라우드 컴퓨팅이란 무엇일까..

[Power BI] 📊 1. Power BI 살펴보기

📊 Power BI 살펴보기 BI : 비즈니스 인텔리전스(Business Intelligence) • 기업에서 데이터를 수집, 정리, 분석하고 활용하여 효율적인 의사결정을 할 수 있는 방법에 대해 연구하는 학문 • 기업의 비전을 달성하기 위하여 비즈니스의 전략을 효율적이고 효과적으로 지원하여 각 조직의 구성원(종업원, 중간 관리자, 의사결정자 등)에게 적시에 의사결정을 할 수 있도록 지원하는 정보체계라고 정의 ) 📊 1. Power BI란? 데이터를 분석 및 시각화하여 신속한 의사결정을 할 수 있도록 Insight를 제공하는 클라우드 데이터 분석 서비스 다양한 유형의 데이터 원본 연결 및 데이터 정리, 분석 시각화 보고서를 작성하여 웹 및 모바일 장치에서 탐색 📊 2. Power BI 작업흐름 1) Po..

728x90