😏 K디지털트레이닝(KDT)

[사전교육] 6일차 - 데이터 크롤링 (실습이 왕창...)

또방91 2021. 12. 23. 12:48
728x90

 

 

 

 

 

 

 

 

 

사전교육 6일차!!

오늘은 데이터크롤링과.. 많은 실습과제를 준 강의였다.

 

 

 

 

 

 ✏    오늘의 숙제 및 커리큘럼 

 

25. 6일차 교육
**elk 구축질문 
/var/log/elasticsearch/elasticsearch.log 
 iptables -F 
 F는 flush의 의미로 iptables의 규칙을 삭제/초기화
 gnome-desktop 선택

 구축이 완료되면 
  https://victorydntmd.tistory.com/312?category=742451 실습 필요

 elasticsearch에서 curl을 이용한 REST Method(PUT, POST, GET, DELETE)를 사용

 $source ~/.bash_profile

26. 파이썬 기반 데이터 크롤링 
💡  실습1  PYTHON을 이용한 데이터 수집(Crawling)
 https://ericnjennifer.github.io/python_crawling
💡  실습2  BeautifulSoup와 requests로 웹 파싱해보기 – 파이썬 실습
https://library.gabia.com/contents/9239/
 => 파이썬으로 데이터를 수집(크롤링, 특정 웹 사이트의 데이터를 수집/파싱, 파이썬)하고 이 데이터를 
 logstash에 적재하고 적재된 데이터를 elasticsearch에 저장을 하고 이 데이터를 활용해서 분석
 elasticsearch에 있는 데이터를 파이썬을 이용하시든 spark를 이용하시든 데이터를 가져와서 분석(학습)으로 사용
💡  실습3  [Elasticsearch] python에서 엘라스틱 사용하기
https://soyoung-new-challenge.tistory.com/72


* PyPI

* 딥 러닝을 이용한 자연어 처리 입문:
https://wikidocs.net/book/2155
* 텐서플로우 기반 실습
 - 초급 : MNIST와 이미지 분류
 - 중급 : 추천시스템
 - 고급 : GAN 생성적 적대 신경망
   -->텐서플로우 홈 사이트참고: https://www.tensorflow.org/?hl=ko

** 선행 학습: 라이브러리 공부
💡  실습4  넘파이 Numpy
💡  실습5  텐서플로 Tensorflow
💡  실습6  판다스 Pandas
💡  실습7  Matplotlib
💡  실습8  케라스 Keras
💡  실습9  사이킷런 scikit-learn(sklearn) 
**IDE사용 : vscode, google colab 설치 메뉴 활용

 

 

 

 

크롤링을 해보긴했다만.....

실습으로 주어진 크롤링 엄청 다양해서 그런지 어려워보이네 ㅠ

 

오늘도 뽜이팅 😎

 

728x90