> 1-2. 빅데이터 처리단계 ELK + Beats로 데이터를 수집하는 시스템 구축 실습 (데이터 형식이 json) =>> log 데이터를 수집을 해서 처리를 하고 저장을 하고 가시화를 하는 시스템을 구축 >>1. 수집 데이터 수집 기술 Flume: 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어 Kafka: 오픈 소스 메시지 브로커 프로젝트 Sqoop: 관계형 데이터 베이스와 아파치 하둡간의 대용량 데이터들을 효율적으로 변환 하여 주는 명령 줄 인터페이스 애플리케이션 Nifi: 소프트웨어 시스템 간 데이터 흐름을 자동화하도록 설계된 소프트웨어 프로젝트 Flink: 오픈 소스 스트림 처리 프레임 워크 Splunk: 기계가 생성한 빅 데이터를, 웹 스타일 인터페이스를 통해 검색, 모니터링, 분석하는 소프트웨어 Logstash: 실시간 파이프라인 기능을 가진 오픈소스 데이터 수집 엔진 Beats: 경량 데이터 수집기, 로그/메트릭/패킷/가동시간/윈도우 이벤트 로그 등을 수집 Fluentd: 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어 프로젝트 Open API 방식: http 방식으로 데이터 수집 csv(comma-separated values) 파일은 엑셀류의 파일이며 RDB 적재
** 수업중간 ELK질문 logstash에서 output에 host는 localhost:9200으로 지정하고 index metadata를 지정을 하면 elasticsearch에서 index로 저장되는데, 인덱스 이름은 filebeat-* 식으로 저장됩니다.
빅데이터와 인공지능을 기반으로 1) 이상 탐지 2) 추천 ==>> 시스템 기반으로 서비스까지 구현
21. 프로젝트 완료 후 1) 데이터 정형화 방법 : 수집된 비정형/반정형 데이터를 다양한 도구를 이용하여 정형 형태로 변형 2) 현재 logstash에 sample-logstash.conf 파일이 /etc/logstash/conf.d에 있습니다. cd /etc/logstash/conf.d 이동후에 cp sample-logstash.conf openapi.conf 로 복사한 후에 해당 파일을 참조하여 openapi.seoul.go.kr 사이트에서 가입 및 데이터 요청/키 발급 등을 하고 input { http_poller { urls => { token => openapi.seoul.go.kr 지정을 해서
output에서 elasticsearch에 호스트는 localhost:9200 index => 임의로 지정을 해서