티스토리 뷰
[ 밑줄 ]
데이터 과학: 정보 처리, 인공지능, 통계학 등의 정보 과학 분야의 지혜를 이해하고 사용하는 능력. 통계 분석, 머신러닝, 딥러닝 기법 중 적절한 것을 선택하고 사용하는 능력이 필요하다.
데이터 엔지니어링: 데이터 과학을 의미 있는 형태로 사용할 수 있게 만들어 구현, 운영하는 능력. IoT기기나 DB 등에서 출력한 데이터 (이른바 raw data)를 해석할 수 있는 형태로 가공(전처리)하는 기술력이 요구된다.
(분석 프로젝트의 시작과 도입 다음의 업무 설계)
프로젝트의 배경과 전제 조건을 이해 --> 프로젝트의 목적을 명확히 --> 목적과 성공 기준 설정 --> 프로젝트에 필요한 환경(HW, SW, NW, 보안 등)을 준비 --> 업무 설계
(데이터 만들기와 수집)
어떤 데이터를 수집해야 하는지, 그 데이터를 수집할 수 있는지를 확인하고 수집할 데이터를 결정 --> 수집하는 데이터의 종류에 맞춰 전처리, 분석 기법이나 검증 방법도 결정
(구조 데이터 가공 + 해석용 데이터 준비)
(비구조화 데이터 처리)
구조화 데이터는 고객 데이터, 운영 데이터처럼 표 형식으로 다루는 것을 의미. DB로 관리하기 쉬움.
비구조화 데이터는 주로 이미지, 음성, text 형식으로 소셜 미디어 데이터나 멀티미디어 데이터, 웹 사이트 데이터, 센서 데이터, 로그 데이터, 오피스 데이터가 이에 해당함. 처리가 상대적으로 어려움
데이터를 다음 단계에서 사용하는 해석 방법에 맞는 형태로 변환하기 위해 전처리를 함.
데이터 전처리는 많은 경우 작업 전체 시간의 60~70%를 차지함. dataset를 어떻게 표현할 것인가가 해석 결과의 정밀도를 좌우하므로 충분한 시간을 들여야 함
(데이터 해석: 예측, 패턴 발견, 최적화 등)
정보처리, AI, 통계학 등의 정보 과학 기술을 통해 데이터를 해석함. 평균이나 분산 등 기초 통계학으로부터 데이터의 특성을 파악, 머신러닝이나 딥러닝 기법을 사용해 예측하거나 패턴을 발견하는 것임
(데이터 가시화)
프로젝트의 목적에 따라 해석 결과를 효과적으로 표현하기 위해 가시화함. 예로 산포도, 히스토그램, 꺽은선 그래프 등이 있음
(평가)
해석 결과에 대한 평가와 프로젝트 평가라는 양쪽 측면을 가짐. 프로젝트의 목표와 성공 기준에 비춰 판단함.
예를 들어 해석 결과의 정밀도는 낮은데 다른 사람이 이해하기 쉽고 활용 방안을 내기 쉬운 결과.....
(업무로의 도입과 평가)
해석 결과를 대상 업무에 활용할 수 있게 시스템을 개발하고 운용해 효과를 모니터링하고 피드백을 제공해 추후 개선에 활용함
머신러닝은 데이터에 내재된 규칙(규칙성)과 패턴을 기계가 학습을 통해 얻는 것을 말한다.
기계는 먼저 입력 데이터로 '학습 데이터'를 받고 그것으로부터 '특징량'을 추출한다. 특징량은 각 데이터가 가진 어떠한 특징을 수치화한 것이다. 특징량을 어떻게 추출할지는 사람이 정의해야 한다.
남녀를 구분하는 데 유효한 속성은 머리 길이, 치마 착용, 하이힐 착용, 목젖의 굴곡이다. 그 중에서도 특히 유효한 속성은 목젖의 굴곡이다.
머신러닝으로 할 수 있는 것은 크게 예측과 지식 발견이다. 예측을 위해서는 지도 학습을 하고 지식 발견을 위해서는 비지도 학습을 한다.
(지도 학습과 예측)
(1) 정답 데이터(목적 변수)를 포함한 데이터 세트를 입력으로 사용함
(2) 목적 변수를 제외한 나머지 데이터(설명 변수)로부터 얻어진 출력 결과값을 가능한 한 정답에 가깝도록 특징량을 찾아내 모델을 만듦
(3) 정답 데이터를 갖지 않는 데이터 세트에 대해 만들어진 모델을 적용하고 예측 결과를 얻음
지도 학습 기법에는 k-근접법, 결정 트리, 램덤 포레스트, 선형 회귀(다중 회귀), 로지스틱 회귀, 나이브 베이즈, 서포트 벡터 머신, 신경망(뉴럴 네트워크) 등이 있음
지도 학습은 기계/설비의 고장 예측이나 이상 감지, 고객 이탈 예측, 상품의 판매 예측, 이미지/음성 인식, 스팸 메일 찾기 등에 활용할 수 있음
(비지도 학습과 지식 발견)
목적 변수를 포함하지 않고 설명 변수만으로 이루어진 데이터 세트를 입력으로 이용함
이 데이터 세트 전체에서 특징량을 추출해 모델을 만듦
출력 결과과 수치뿐이라서 라벨을 붙여 의미 있는 정표를 표시함
비지도 기법에는 주성분 분석, 대응 분석, 연관성 분석, 계층형 클러스터링, 비계층형 클러스터링, 네트워크 분석 등이 있음
비지도 학습은 고객 그룹화, 상품 추천, 화제(토픽) 추출 등에 활용할 수 있음
(신경망에서 딥러닝으로)
딥러닝은 기존의 머신러닝과는 다른 학습법..... 그 이유는 특징량의 추출에 있다. 머신러닝에서는 사람이 특징량을 추출하기 위한 정의를 해야 한다. 그러나 딥러닝에서는 기계가 학습에서 특징량을 자동으로 추출함.
딥러닝은 특히 이미지나 음성, 언어 등의 비구조화 데이터에서 특징량을 추출하고, 높은 정밀도의 모델을 만드는 데 뛰어나다. 이런 데이터는 설명 변수의 수(차원 수)가 많고 특징량 추출이 어렵다.
'지능 > 인공지능' 카테고리의 다른 글
인공지능 개발 이야기 by 야마모토 잇세이 (0) | 2020.11.01 |
---|---|
AI를 이기는 철학 by 오가와 히토시 (0) | 2020.10.17 |
신경망 (오창석교수의 '딥러닝을 위한 이공 신명망'일 듯) (0) | 2020.10.01 |
패턴의 유형 (어느 책인지 모르겠음) (0) | 2020.09.30 |
AI시대의 고등교육 by 조지프 E. 아운 (0) | 2020.09.30 |
- Total
- Today
- Yesterday
- 개발자가 아니더라도
- 함께 있으면 피곤한 사람
- 데브옵스 도입 전략
- 안나 카레니나
- 양자역학
- 사회물리학
- 돈
- 당신은 AI를 개발하게 된다
- 디지털 트랜스포메이션 엔진
- 함께 있으면 즐거운 사람
- 부정성 편향
- 참을 수 없는 존재의 가벼움
- 상대성이론
- 불교
- 제로 성장 시대가 온다
- 경계의 종말
- 혁신
- 고도를 기다리며
- 복잡계의 새로운 접근
- 최진석
- 플랫폼의 시대
- 머신러닝 디자인 패턴
- Ai
- 직감하는 양자역학
- 이노베이션
- 경영혁신
- 전략에 전략을 더하라
- 인공지능
- 스케일의 법칙
- 파괴적 혁신
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |