학습 커리큘럼
⭐ 총 60분정도
⭐ 데이터 사이언스가 어떤 것인지부터 입문하는 사람들을 위해 역사,윤리, 역량까지 짚어주는 과정이었다.
예전 유튜브에서 데이터홀릭 3분이서 이야기하는 영상을 본적이 있는데, 이렇게 강의로 볼 수 있어서 좋은듯!
1. 데이터 사이언스가 도대체 뭔가요?
* 데이터 사이언스 (위키피디아 정의)
데이터 마이닝과 유사하게 정형,비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다.
* AI, 머신러닝, 딥러닝등 벤다이어그램
- 도메인 전문성(Domain Expertise), 컴퓨터 과학(Computer Science), 수학(Mathematics)
* 3개 전체 분야를 다 잘하는 사람은 상상 속의 동물인 유니콘 🦄이라고 불리니.....
위 벤다이어그램 참고해서 내가 어떤 것에 초점을 맞춰 공부할지 생각해보자-!
2. 데이터 사이언스의 역사를 알아보자
* MS 연구원 지미그레이 - 데이터 사이언스분야를 과학의 4번째 패러다임
- 쏟아져나오는 데이터를 해석하고 소화해나가는 역량.. 이전부터 사용했지만 이를 통해 알려짐
* 하버드 비즈니스 리뷰 칼럼 - 21세기 가장 섹시한 직업: 데이터 사이언티스트
3. 데이터 분석에 필요한 역량과 윤리
*데이터 분석에 필요한 역량
1. 비판적인 사고 : 정보를 그대로 받아들이지 X, 비판적으로 받아들이기! 자신의 주장을 데이터로 뒷받침하기!
2. 숫자 기반의 사고 : 직관에 의해 판단하기보다 숫자를 확인하는 사고
*데이터 분석 보안 & 윤리
1. 개인 정보 이슈 : 개인정보 접근 오남용이 없도록 주의할 필요
2. 크롤링 법적 이슈 : 데이터 확보 크롤링이 저작권 침해와 업무방해죄 침해소지 있음. 가장 좋은 것은 제공하는 api 이요하기 법적인 의무 없지만 robot.txt 확인하기
4. 데이터 사이언스에 대한 궁금증!
* 데이터 사이언스 관련 전공
- 도움되는 전공: 컴퓨터공학, 소프트웨어공학, 산업 및 시스템 공학, 수학, 통계학
- 대학원: AI대학원, 빅데이터 MBA, 통계학 석/박사, 해외 온라인 석사
* 비전공자의 공부는?📖
1. 프로젝트로 시작해보자 2.함께 공부하자
*어떤 과목을 학습해야하나요?
1. 분석 도구 2. 분석기법(통계학, 머신러닝) 3. 현업 지식
번호 순대로 학습순서를 정한다면 흥미롭게 접근 가능 :-)
* 데이터 사이언스의 직무는?
- 작은 회사라면 아래 사진의 직무를 데이터 사이언스 혼자 수행할수도....!
* 현업에서 많이 사용하는 tool
- 도구: 1) 주피터 노트북 2) git
- 언어 : 1)SQL(기본으로 사용하는 언어) 2) Python(가장 대중적인 언어) 3) R (데이터를 다루는 전문가언어. 개발보다는 학술통계 등학계에서 가장 많이 사용하는 언어. 테이블 형태를 다룰 때 가장 좋은 언어)
* 기본적인 용어 알아두기!
- 데이터 리터러시(Data Literacy)는 데이터를 이해하고 분석하고 활용할 수 있는 전반적인 능력을 말합니다.
- 데이터 마이닝(Data Mining)은 데이터 안에서 가치있고 유용한 정보를 찾아내는 행위이며, 다양한 관점에서 데이터를 분석하여 의미를 발견하는 것을 말합니다. (데이터 분석과 유사한 개념으로 사용되는 경우가 많습니다.)
- 데이터 분석(Data Analysis)은 데이터를 수집하고 정제하고 분석하여 의사결정을 내리는 일련의 과정을 말합니다.
- 인공지능(Artificial Intelligence)은 지능형 기계를 만드는 과학과 공학입니다. 인공지능 > 머신러닝 > 딥러닝의 순서를 꼭 기억하세요
- 머신러닝(Machine Learning)은 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습해서 실행할 수 있도록 하는 알고리즘을 개발하는 연구분야 입니다
- 딥러닝(Deep Learning)은 기계가 자동으로 대규모 데이터에서 중요한 패턴과 규칙을 학습하고, 이를 토대로 의사결정이나 예측 등을 수행하는 기술입니다.
5. 데이터 분석 프로세스
*데이터 분석 프로세스 (4단계) - 순환구조
1. 기획
- 어떤 문제를 해결할지??
- 문제 분석방법론:
1)기술 통계 분석: 가지고 있는 데이터로 요약(그래프, 표)
2)가설검정: 조직에서의 이미 가설, 질문
3)예측모델개발: 미래시점에서의 예측
2. 데이터 수집
- 담당 부서에서 데이터 얻기, 데이터 탐색, 오류 검토
==> 원하는 데이터가 맞는지(원하는 주제, 오류없는지 등) 확인이 꼭 필요하기에 많은 시간이 소요되는 단계
3. 분석
- 데이터 탐색 및 전처리 (적합한 형태로 가공하기)
==> 가장 많은 시간이 소용되는 단계⭐ 전체의 80%이상을 차지하는 단계
- 기술 통계분석: 집단 간 비교, 시계열 비교
- 가설 검정: 가설 지지확인
- 예측 모형 개발, 고도화작업 : 어디까지 이루어질 것인지 시간과 비용에 따라...
4. 보고
- 표, 그래프 제작 : 어느정도까지, 어떻게 자료를 나타내야할 지 정하는 게 중요함
- 보고서 작성: 문서화, 대시보드 개발
6. 데이터 사이언스 공부 시작하기
데이터 사이언스 공부, 내일말고 오늘부터!
**부스트코스 추천 강의**
- 강의형은 이론을 듣고 퀴즈
- 프로젝트형은 프로젝트를 제출
참고: 부스트 코스 - Hello, 데이터 사이언스!
https://www.boostcourse.org/ds001
🧐공부 한줄 평 : 데이터사이언스 전공 책에 앞에 소개글을 읽는 느낌! 요목조목 잘 설명해주어서 너무 유익한 시간!
'😀 Language > - Python' 카테고리의 다른 글
[샛길공부] int( )함수 자세히 알아보기! int(값,진수) (그의 매력을 파헤쳐보자) (0) | 2022.01.22 |
---|---|
[pymysql 모듈] 파이썬과 mysql 연동시키기! (0) | 2022.01.19 |
[boostcourse] 모두를 위한 데이터 사이언스-2 (파이썬 EDA- seaborn) (0) | 2021.12.29 |
[boostcourse] 모두를 위한 데이터 사이언스-1 (0) | 2021.12.29 |
[inflearn] 이것이 진짜 크롤링이다 (기본편) - 4 (0) | 2021.12.12 |