티스토리 뷰

728x90

[ 밑줄 ]

 

기계학습은 크게 (1)지도학습, (2)비지도학습, (3) 강화학습 세 가지로 분류할 수 있습니다.

 

지도학습이란 말 그대로 교사의 지도에 따라 학습하듯이 정답을 이미 알고 있는 경우에 사용하는 학습 방법입니다.

문제와 그 정답의 쌍(이 쌍을 가리켜 '학습 데이터' 혹은 '훈련 데이터'라고 부릅니다)이 주어진 상태로 학습을 진행합니다. 이미 정답을 알고 있기 때문에 문제를 푼 뒤 그 결과를 정답과 비교해서 정답과의 오차가 적어지도록 인공지능의 동작(내부 파라미터)를 수정해 나갑니다. 

비지도학습이란 정답이 없을 경우의 학습 방법이다.

우리가 평소에 체감하기 쉬운 예를 들자면, 문제만 실려있고 해답이 실려있지 않은 문제집과 비슷하다고 할 수 있겠습니다.

문제를 관찰함으로써 비슷한 문제의 집합을 발견하고, '문제에는 이런 타입이 있구나'하고 이해할 수 있기 때문입니다.

문제이 집합이 보이게 되면 미지의 문제에 직면하더라도 어떤 집합에 속하는 문제인지 인식할 수 있게 되므로 한결 대응하기 쉬워집니다. 

강화학습에서는 시행착오를 거쳐 가며 최적으로 보이는 '행동 방법'을 학습합니다.

이때의 '행동 방법'을 가리켜 '정책'(Policy)이라고 부릅니다.

시행착오의 결과로 우연히 최적의 방법을 발견하고 한다. 이때 일련의 행동을 기억해 두었다가 추후 비슷한 상황에 직면했을 때 가능한 한 같은 행동을 하는 것이 강화학습입니다. 

 

[ 연결 ]

 

[ 자평 ]

댓글