😏 K디지털트레이닝(KDT)

[사전교육] 4일차 - elk 구축하기 및 빅데이터의 전반적인 내용

또방91 2021. 12. 23. 12:23
728x90

 

 

 

 

 

 

 

 

 

 

사전교육 4일차!!

오늘은 elk구축 및 빅데이터 전반적인 내용의 강의가 시작되었다.

 

 

 

 

 

 

 ✏    오늘의 숙제 및 커리큘럼 

 

18. 16일 과정 선행 학습
  1) 빅데이터 - 하둡,하이브로 시작하기 교재:
https://wikidocs.net/22652
  2) PPT (빅데이터생태계, 빅데이터 데이터 처리)
19. fastestmirror langpacks
 1) #vi /etc/resolv.conf  
    nameserver 168.126.63.1
    nameserver 8.8.8.8
    :wq! 
 
   #service network restart

20. 빅데이터
* 도메인 분석
* pre-trained model: 사전학습 된 모델
* 데이터 얻을 수 있는 사이트
- 통합데이터지도:  https://www.bigdata-map.kr/
- 환경 데이터:  https://www.bigdata-environment.kr/
- 산업데이터- 데이터마켓: https://www.bigdata-dx.kr/product
- 교통 데이터: https://bigdata-transportation.kr/
- 16개 빅데이터 플랫폼(통신,교통,문화,유통 등등): https://www.cisp.or.kr/archives/22304  
* 2021년 최고의 머신러닝 플랫폼 top10:
http://www.aitimes.com/news/articleView.html?idxno=137999
* 아파치 프로젝트: https://projects.apache.org/

*빅데이터 - 하둡,하이브로 시작하기 교재
> 1-1. 빅데이터란
>>1. 데이터의 형태
 ****수집된 비정형/반정형 데이터를 다양한 도구를 이용하여 정형 형태로 변형
*데이터 전처리
https://yonelabs.tistory.com/entry/01-%EB%8D%B0%EC%9D%B4%ED%84%B0-001-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC?category=904791https://yonelabs.tistory.com/entry/01-%EB%8D%B0%EC%9D%B4%ED%84%B0-001-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC

> 1-2. 빅데이터 처리단계 
 ELK + Beats로 데이터를 수집하는 시스템 구축 실습 (데이터 형식이 json)
 =>> log 데이터를 수집을 해서 처리를 하고 저장을 하고 가시화를 하는 시스템을 구축
>>1. 수집
데이터 수집 기술
Flume: 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어
Kafka: 오픈 소스 메시지 브로커 프로젝트
Sqoop: 관계형 데이터 베이스와 아파치 하둡간의 대용량 데이터들을 효율적으로 변환 하여 주는 명령 줄 인터페이스 애플리케이션
Nifi: 소프트웨어 시스템 간 데이터 흐름을 자동화하도록 설계된 소프트웨어 프로젝트
Flink: 오픈 소스 스트림 처리 프레임 워크
Splunk: 기계가 생성한 빅 데이터를, 웹 스타일 인터페이스를 통해 검색, 모니터링, 분석하는 소프트웨어
Logstash: 실시간 파이프라인 기능을 가진 오픈소스 데이터 수집 엔진
Beats: 경량 데이터 수집기, 로그/메트릭/패킷/가동시간/윈도우 이벤트 로그 등을 수집
Fluentd: 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어 프로젝트
Open API 방식: http 방식으로 데이터 수집
 csv(comma-separated values) 파일은 엑셀류의 파일이며 RDB 적재 

** 수업중간 ELK질문
 logstash에서 output에 host는 localhost:9200으로 지정하고 index metadata를 지정을 하면
 elasticsearch에서 index로 저장되는데, 인덱스 이름은 filebeat-* 식으로 저장됩니다.

 빅데이터와 인공지능을 기반으로
 1) 이상 탐지
 2) 추천
 ==>> 시스템 기반으로 서비스까지 구현

21. 프로젝트 완료  후
  1) 데이터 정형화 방법 : 수집된 비정형/반정형 데이터를 다양한 도구를 이용하여 정형 형태로 변형
  2) 현재 logstash에 sample-logstash.conf 파일이 /etc/logstash/conf.d에 있습니다.
     cd /etc/logstash/conf.d 이동후에
    cp sample-logstash.conf openapi.conf 로 복사한 후에
    해당 파일을 참조하여 openapi.seoul.go.kr 사이트에서 가입 및 데이터 요청/키 발급 등을 하고
    input {
     http_poller {
     urls => {
        token => openapi.seoul.go.kr 지정을 해서 

    output에서  elasticsearch에 호스트는 localhost:9200 index => 임의로 지정을 해서

   logstash 재시작을 하시고 kibana에서 보시면 데이터가 들어오면 됩니다.

   vi /etc/yum.repos.d/elasticsearch/repo
   소문자 i를 눌러서 입력 가능하도록 만든 다음에
   [elast--- 입력을 하시고
   [elasticsearch]
   name=Elasticsearch repository for 7.x packages
   baseurl=https://artifacts.elastic.co/packages/7.x/yum
   gpgcheck=1
   gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
   enabled=0
   autorefresh=1
   type=rpm-md

   입력을 다하시면 
   esc 키를 누르시고
   :wq! 엔터를 치면 저장이 되요

 

 

오늘도 뽜이팅 😎

 

728x90