티스토리 뷰

728x90

[ 밑줄/연결 ]

 

(딥러닝으로 풀고자 하는 문제)

 

(1) 분류(Classification): 데이터이 부류(class)를 알아내기 위한 문제. 자동차의 길이, 너비, 높이, 바퀴 크기, 엔지 마력 등의 특징(feature)을 보고 경차, 준준형차, 중형차, 대형차 중 한가지 부류로 분류하는 문제

 

(2) 군집화(Clustering): 데이터 인스턴스(data instance)들을 그룹화하기 위한 문제. 비슷한 특징을 가지는 데이터 인스턴스들끼리 그룹화하는 것. 자동차의 길이, 너비, 높이, 바퀴 크기, 엔지 마력 등의 특징(feature)을 보고 비슷한 인스턴스끼리 그룹화하는 것. 그룹화된 결과를 보고 그룹1은 경차, 그룹2는 준준형차 등으로 정해 주기 위해서는 사람의 개입이 필요하다. 

 

(3) 회귀(regression): 불완전한 데이터의 갑(value)를 알아내기 위한 문제...한 데이터 인스턴스 중에 자동차의 너비, 높이, 바퀴 크기, 엔지 마력 등의 특징(feature)을 아는데 길이를 모른다고 할때, 다른 데이터 인스턴스의 값을 근거로 불완전한 데이터로 구성된 인스턴스의 길이 특징을 예측할 수 있다.

 

(딥러닝으로 풀고자 하는 문제)

 

(1) 지도학습(supervised learning)

레이블(label)이 있는 데이터를 학습하는 방법으로 주로 분류와 회귀 문제를 다룸. 레이블이 있다는 것은 정답이 있다는 의미이기 때문에 비교적 학습이 쉽고 효과적임. 레이블을 데이터마다 부여하려면 일반적으로 많은 비용이 요구됨. 학습 데이터는 적게는 수백 개에서 많게는 수백만 개나 수천만 개 또는 그 이상으로 방대함. 유명한 예는 iris 데이터...

 

(2) 비지도학습(unsupervised learning)

레이블(label)이 없는 데이터를 학습하는 방법으로 주로 데이터를 그룹화하거나 데이터의 특징을 분석하기 위해서 사용함. 데이터를 준비하기 위한 비용이 적음. 분석된 결과인 군집들이 어떠한 의미를 가지는지를 사람이 개입하여 확인해야 하는 경우가 많음. iris 데이터에서 레이블을 제외하면 비지도학습으로 분석할 데이터가 됨. 

 

(3) 강화학습(reinforcement learning)

에이전트가 어떠한 환경에서 행동을 수행했을 때 보상을 함으로써, 에이전트는 그 보상을 최대로 하는 행동을 수행하도록 학습하게 하는 방법. 주로 어떠한 행동을 결정하는 분류 문제나 보상을 예측하는 회귀 문제를 다룸. 레이블이 없는 데이터를 학습할 수 있지만 에이전트와 환경을 구성하는 추가적인 비용을 필요로 한다.

 

(퍼셉트론) 

1957년 고안한 기초 형태의 인공 신경망.. 구조는....

z는 가중치의 곱의 합으로 입력값과 가중치를 곱하여 합한 값. 함수 h는 활성화 함수로 z가 임계치보다 클 경우 1을 출력하고 그렇지 않으면 0을 출력한다. 

 

입력값은 외부에서 퍼셉트론으로 들어오지만 편향값은 퍼셉트론을 만들 때 엔지니어가 정하는 값이다. 편향을 두는 이유는 임계치를 0으로 만들기 위해서이다. 임계치를 정하는 일은 어렵거나 불가능할 수 있으며 임계치가 0이면 활성화 함수 구현 또한 편해진다. 

과적합(overfitting)은 학습 데이터를 과도하게 학습해서 신경망의 일반성(generality)을 떨어뜨리는 결과를 초래하는 현상을 의미한다. 머신러닝에서 과적합을 잘 피해야 제대로된 학습을 할 수 있다.

 

(합성곱 신경망)

이미지 데이터 처리에 주로 사용되는 심층 신경망....컨볼루션 계층과 풀링 계층을 이용하여 입력 데이터의 분량을 줄이면서도 복잡한 특징을 추출한다. 

(강화학습)

어떤 환경에서 어떠한 행동을 했을 때 그것이 잘된 행동인지 잘못된 행동인지를 나중에 판단하고 보상(또는 벌칙)을 줌으로써 스스로 시행착오를 해 가며 학습하게 하는 분야....

에이전트는 특정 환경에서 행동을 결정하고 환경은 그 결정에 대한 보상(reward)을 내린다. 이 보상은 행동 즉시 결정되기보다는 여러 행동들을 취한 후에 한꺼번에 결정되는 경우가 많다. 특정 행동을 취했을 때 바로 그 행동에 대한 평가를 내릴 수 없는 경우가 많기 때문이다. 

 

에이전트가 행동을 결정하고 환경이 주는 보상으로 스스로 학습할 때 주로 딥러닝에서 다룬 인공 신경망을 사용한다. 환경과 에이전트의 상태 등을 입력값으로 인공 신경망이 행동을 결정하고 보상이 있으면 이전의 입력값과 행동들을 긍정적으로 학습한다. 

 

(강화학습의 기초가 된 마르코프 의사결정 과정)

강화학습은 마르코프 의사결정 과정(Markov decision process, MDP)에 학습의 개념을 넣은 것....

마르코프 가정은 상태가 연속적인 시간에 따라 이어질 때 어떠한 시점의 상태는 그 시점 바로 이전의 상태에만 영향을 받는다는 가정....

특징(feature): 학습모델로 정답을 도출하기 위해 고려할 데이터를 의미함. 의미 있는 특징이 많다면 그만큼 학습이 용이함. 일련의 특징을 특징벡터(feature vector)라고 한다. 특징을 속성(atttribute)라고도 부른다.

 

레이블(label): 특징벡터를 머신러닝 모델에 통과시켰을 때 도출되기를 기대하는 정답. 

 

[ 자평 ]

 

강화학습을 주식에 적용하는 방법으로는 드문 국내 책이 아닐까 싶다.

주식에서 손을 끊었고, 또한 프로그래머가 아니기 때문에 개념적인 정보만 훑어서 보았다. 

 

 

댓글