티스토리 뷰

728x90

[ 밑줄/연결 ]

 

(데이터 전처리 구현체 작성 도구 선택 요령)

(1) 이미 동일한 기능을 제공하는 도구가 있다면 최대한 사용한다.

(2) 작업을 한 번만 한다면 셸 스크립트나 리눅스 커맨드를 이용한다.

(3) 여러 번 작업을 수행해야 한다면 셸 스크립트, 파이썬, 자바, C++을 이용한다.

(4) 데이터 세트(파일)가 많고 처리해야 할 것들이 많고 복잡하다면 파이썬 또는 자바를 이용한다.

(5) 고속 처리가 필요하다면 자바, C++, 파이썬 멀티코어를 고려한다.

(6) 맵리듀스가 아닌 단순 분산 처리를 해야 한다면 자바, 셸 스크립트, 파이썬을 이용한다.

(7) 업무를 해야 한다면 자바, 파이썬, 셸 스크립트(코드를 가능한 한 가독성 있게 작성)를 사용한다. 

 

빅데이터 분석에서 가장 중요한 것이 분석 알고리즘과 분석 프로세스다.

분석 알고리즘은 의사결정트리, 군집 분석, 클러스터링 등 다양한 기법이 존재한다.

분석 프로세스는 분석 대상 정의 및 자료 수집에서부터 분석 결과 공유 및 예측 모형 개발까지 이루어진다. 

 

(예측 모형 개발 프로세스)

9단계이며 크게는 분석 전략 수립 영역 --> 분석 사전 영역 --> 분석 특화 서비스 영역을 나뉨

이 중 분석 '특화 서비스 영역'이 가장 핵심적 영역

 

분석 전략 수립 영역: 현재의 비즈니스 프로세스, 데이터 영역을 분석하여 빅 데이터의 분석 주제 영역을 도출

분석 사전 영역: 분석 데이터를 사전에 정의하고 탐색적으로 빅 데이터를 분석. 빅데이터 분석을 할 만한 가치가 있는지는 사전에 분석해 봄

분석 특화 서비스 영역: 통합 분석 마트를 구축하고 분석에 필요한 최종변수를 선별. 이를 기반으로 예측 모형을 만듦. 예측 모형을 기반으로 비즈니스 프로세스 예측을 함

(6) 통합 분석 마트 설계/구축 : 다양한 분석 알고리즘이 사용됨. 머신러닝, 통계 기반, text mining 등....

(7) 특징 추출: 머신러닝 기반, 통계 기반, 인공지능 알고리즘 등 다양한 최종 변수 선별 기법이 존재함

 

 

 

[ 자평 ]

 

SW 엔지니어나 개발자가 아니기에 흥미로운 부분만 골라 읽었다. 

댓글