😀 Language/- Python

[boostcourse] Hello, 데이터 사이언스!

또방91 2021. 12. 31. 15:12
728x90

 

 

 

 

 

 

학습 커리큘럼

 

 

 

⭐ 총 60분정도

데이터 사이언스가 어떤 것인지부터 입문하는 사람들을 위해 역사,윤리, 역량까지 짚어주는 과정이었다.

예전 유튜브에서 데이터홀릭 3분이서 이야기하는 영상을 본적이 있는데, 이렇게 강의로 볼 수 있어서 좋은듯!

 


1. 데이터 사이언스가 도대체 뭔가요?
* 데이터 사이언스 (위키피디아 정의)
데이터 마이닝과 유사하게 정형,비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다.

* AI, 머신러닝, 딥러닝등 벤다이어그램
도메인 전문성(Domain Expertise),   컴퓨터 과학(Computer Science),   수학(Mathematics)


* 3개 전체 분야를 다 잘하는 사람은 상상 속의 동물인 유니콘 🦄이라고 불리니.....
위 벤다이어그램 참고해서 내가 어떤 것에 초점을 맞춰 공부할지 생각해보자-! 

 

2. 데이터 사이언스의 역사를 알아보자
* MS 연구원 지미그레이 - 데이터 사이언스분야를 과학의 4번째 패러다임
 - 쏟아져나오는 데이터를 해석하고 소화해나가는 역량.. 이전부터 사용했지만 이를 통해 알려짐

* 하버드 비즈니스 리뷰 칼럼 - 21세기 가장 섹시한 직업: 데이터 사이언티스트

 

3. 데이터 분석에 필요한 역량과 윤리
*데이터 분석에 필요한 역량
1. 비판적인 사고 : 정보를 그대로 받아들이지 X, 비판적으로 받아들이기! 자신의 주장을 데이터로 뒷받침하기!
2. 숫자 기반의 사고 : 직관에 의해 판단하기보다 숫자를 확인하는 사고
 
*데이터 분석 보안 & 윤리
1. 개인 정보 이슈 : 개인정보 접근 오남용이 없도록 주의할 필요
2. 크롤링 법적 이슈 : 데이터 확보 크롤링이 저작권 침해와 업무방해죄 침해소지 있음. 가장 좋은 것은 제공하는 api 이요하기 법적인 의무 없지만 robot.txt 확인하기

 

4. 데이터 사이언스에 대한 궁금증!
* 데이터 사이언스 관련 전공
- 도움되는 전공: 컴퓨터공학, 소프트웨어공학, 산업 및 시스템 공학, 수학, 통계학
- 대학원: AI대학원, 빅데이터 MBA, 통계학 석/박사, 해외 온라인 석사

* 비전공자의 공부는?📖
1. 프로젝트로 시작해보자 2.함께 공부하자

*어떤 과목을 학습해야하나요?
1. 분석 도구 2. 분석기법(통계학, 머신러닝) 3. 현업 지식
번호 순대로 학습순서를 정한다면 흥미롭게 접근 가능 :-) 

* 데이터 사이언스의 직무는?
 - 작은 회사라면 아래 사진의 직무를 데이터 사이언스 혼자 수행할수도....!
* 현업에서 많이 사용하는 tool
- 도구: 1) 주피터 노트북  2)  git
- 언어 : 1)SQL(기본으로 사용하는 언어) 2) Python(가장 대중적인 언어) 3) R (데이터를 다루는 전문가언어. 개발보다는 학술통계 등학계에서 가장 많이 사용하는 언어. 테이블 형태를 다룰 때 가장 좋은 언어)

* 기본적인 용어 알아두기!

- 데이터 리터러시(Data Literacy)는 데이터를 이해하고 분석하고 활용할 수 있는 전반적인 능력을 말합니다.
- 데이터 마이닝(Data Mining)은 데이터 안에서 가치있고 유용한 정보를 찾아내는 행위이며, 다양한 관점에서 데이터를 분석하여 의미를 발견하는 것을 말합니다. (데이터 분석과 유사한 개념으로 사용되는 경우가 많습니다.)
- 데이터 분석(Data Analysis)은 데이터를 수집하고 정제하고 분석하여 의사결정을 내리는 일련의 과정을 말합니다.
- 인공지능(Artificial Intelligence)은 지능형 기계를 만드는 과학과 공학입니다. 인공지능 > 머신러닝 > 딥러닝의 순서를 꼭 기억하세요
- 머신러닝(Machine Learning)은 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습해서 실행할 수 있도록 하는 알고리즘을 개발하는 연구분야 입니다
- 딥러닝(Deep Learning)은 기계가 자동으로 대규모 데이터에서 중요한 패턴과 규칙을 학습하고, 이를 토대로 의사결정이나 예측 등을 수행하는 기술입니다.

 

5. 데이터 분석 프로세스
*데이터 분석 프로세스 (4단계) - 순환구조

1. 기획
 - 어떤 문제를 해결할지??
 - 문제 분석방법론:
 1)기술 통계 분석: 가지고 있는 데이터로 요약(그래프, 표)
 2)가설검정: 조직에서의 이미 가설, 질문
 3)예측모델개발: 미래시점에서의 예측

2. 데이터 수집
 - 담당 부서에서 데이터 얻기, 데이터 탐색, 오류 검토
   ==> 원하는 데이터가 맞는지(원하는 주제, 오류없는지 등) 확인이 꼭 필요하기에 많은 시간이 소요되는 단계

3. 분석
 - 데이터 탐색 및 전처리 (적합한 형태로 가공하기)
   ==> 가장 많은 시간이 소용되는 단계⭐ 전체의 80%이상을 차지하는 단계
 - 기술 통계분석: 집단 간 비교, 시계열 비교
 - 가설 검정: 가설 지지확인
 - 예측 모형 개발, 고도화작업 : 어디까지 이루어질 것인지 시간과 비용에 따라...

4. 보고 
 - 표, 그래프 제작 : 어느정도까지, 어떻게 자료를 나타내야할 지 정하는 게 중요함
 - 보고서 작성: 문서화, 대시보드 개발

 

6. 데이터 사이언스 공부 시작하기
데이터 사이언스 공부, 내일말고 오늘부터!
 **부스트코스 추천 강의**
- 강의형은 이론을 듣고 퀴즈
- 프로젝트형은 프로젝트를 제출

 

 

 

 

참고: 부스트 코스 - Hello, 데이터 사이언스!

https://www.boostcourse.org/ds001

 

🧐공부 한줄 평 : 데이터사이언스 전공 책에 앞에 소개글을 읽는 느낌! 요목조목 잘 설명해주어서 너무 유익한 시간!

 

 

 

 

 

 

728x90