티스토리 뷰

728x90

[ 밑줄/연결 ]

 

(의사결정)

 

에이저트(Agent)는 환경을 관찰한 다음 그에 기반해 행동하는 개체(entity)다.

에이전트는 인간이나 로봇과 같은 물리적 개체일 수도 있으나....SW로 구현된 의사결정 지원 시스템 등의 비물리적 개체일 수 있다.

 

에이전트와 환경 간의 상호 작용은 '관찰-행동' 주기 혹은 루프를 따른다.

관찰은 사람이 생물학적 감각 과정을 통해 행해지거나 항공 교통 관제 시스템의 레이더처럼 센서 시스템을 통해 얻을 수 있다. 관찰은 상당수 불완전하거나 잡음이 많다. 

 

관측의 시퀸서 O1....Ot와 환경에 대한 지식이 주어지면 에이전트는 결국 다양한 불확실성이 존재하는 상황에서 목표를 가장 잘 달성하는 조치를 선택해야 하는데, 다음과 같은 불확실성이 있다.

 

결과의 불확실성

행동의 결과가 불확실함을 의미

 

모델의 불확실성

문제 해결을 위한 모델의 불확실성을 의미

 

상태의 불확실성

환경의 참 상태의 불확실성을 의미

 

상호 작용 불확실성

환경과 상호 작용하는 다른 에이전트의 행동이 불확실

 

불확실성이 존재하는 상황에서 결정을 내리는 것이 인공지능에서도 핵심 분야

불확실성에도 불구하고 안정적인 결정을 내리기 위한 다양한 알고리듬과 계산 과정....

 

 

(방법)

 

의사결정 에이전트를 설계하는 방법...

 

(1) 명시적 프로그래밍

에이전트가 가질 수 있는 모든 시나리오를 예상하고, 각 시나리오에 대한 응답으로 에이전트가 수행해야 하는 작업을 명시적으로 프로그래밍하는 것

 

단순한 문제에 적합

 

(2) 지도 학습

에이전트가 따라야 할 프로그램을 작성하는 것보다 에이전트에게 무엇을 해야 하는지 보여주는 것이 더 쉬울 수 있다.

설계자는 훈련 예제 집합을 제공하고 자동화된 학습 알고리듬은 이러한 예제에서 일반화된 규칙을 찾아야 한다.

 

분류 문제에 널리 적용됐다. 

 

(3) 최적화

설계자가가능한 의사결정 전략의 공간과 최대화할 성능 측정을 지정하는 것

 

의사결정 전략의 성능을 평가하려면 일반적으로 시뮬레이션 배치를 실행해야 한다.

그런 다음 최적화 알고리듬은 최적의 전략을 위해 이 공간에서 검색을 수행한다.

 

공간이 상대적으로 작고 성능 측정에 지역 최적이 많지 않은 경우 다양한 지역 방법이나 전역 검색 방법이 적합할 수 있다.

 

(4) 계획

검색에 도움을 주도록 문제의 역학 모델을 사용하는 최적화의 한 형태

 

광범위한 문헌에서 결정론적 문제에 초점을 맞춘 다양한 계획 문제를 탐구

 

결정론적 문제를 가정하면 고차원 문제로 보다 쉽게 확장할 수 있다. 

 

 

(5) 강화학습

계획의 가정 중 모델이 사전에 알려져 있다는 조건을 완화한다. 

대신 에이전트가 환경과 상호 작용하는 동안 의사결정 전략을 학습한다.

설계자는 성능 측도만 제공하면 된다.

에이전트의 행동을 최적화하는 것은 학습 알고리듬에 달려 있다. 

 

(경제학)

인간의 의사결정 모델이 필요하여 구축하는 한 가지 접근 방식이 18세기 후반에 처음 도입된 효용 이론이다.

효용 이론은 다양한 결과의 바람직함을 모델링하고 비교하는 수단을 제공한다.

게임 이론은 이익을 극대화하기 위해 서로 존재하는 여러 에이전트의 행동을 이해하려는 시도다. 

 

(심리학)

인간 행동의 관점에서 인간의 의사결정을 연구

자극에 대한 동물의 반응을 연구함으로써 19세기부터 시행착오 학습 이론을 발전시켜 왔다.

 

"인간 아이의 훈련은 보상과 처벌의 체계에 크게 의존하며, 이는 '쾌락' 또는 '보상'이라는 두 가지 간섭 입력만으로 조직화를 수행하는 것이 가능해야 함을 시사한다. 다른하나는 '고통' 또는 '처벌'이다." - 앨린 튜링

 

심리학자들의 업적은 에이전트가 불확실한 환경에서 결정을 내리도록 가르치는데 사용하는 중요한 기술인 강화학습 분야의 토대를 마련했다.

 

(신경과학)

심리학자들은 인간의 행동을 연구하는 반면 신경과학자들은 행동을 만드는 데 사용되는 생물학적 과정에 초점을 맞춘다.

19세기 말 과학자들은 뇌가 상호 연결된 뉴런 네트워크로 구성돼 있으며, 이 네트워크가 세상을 지각하고 추론하는 능력을 담당한다는 사실을 발견했다.

 

1940년대에 연구자들은 처음으로 뉴런이 네트워크로 결합될 때 계산 작업을 수행할 수 있는 개별 '논리 단위'로 간주될 수 있다고 제시했다.

 

(컴퓨터과학)

20세기 중반에 컴퓨터 과학자들은 지능적인 의사결정 문제를 형식 논리를 통한 기호 조작 문제로 공식화하기 시작했다.

 

패턴 인식을 위해 신경망을 훈련할 수 있다는 지식을 바탕으로 연결주의는 하드 코딩된 지식이 아닌 데이터나 경험에서 지능적인 행동을 배우려고 시도한다.

 

 

(공학)

로봇과 같은 물리적 시스템이 지능적 결정을 내릴 수 있도록 하는데 중점을 뒀다.

 

자동 제어 시스템은 오븐의 온도 조절에서 항공 우주 시스템의 탐색에 이르기까지 여러 산업 분야에서 널리 사용된다.

 

(수학)

에이전트는 불확실한 환경에서 정보에 입각한 결정을 내리기 위해 불확실성을 정량화할 수 있어야 한다.

의사결정 분야는 이 작업에 대해 확률 이론에 크게 의존한다. 특히 베이지안 통계는 이 맥락에서 중요한 역할을 한다.

 

(운용 과학)

자원 할당, 자산 투자, 유지 관리 일정과 같은 의사결정 문제에 대한 최적의 해를 찾는 것이다.

 

선형 계획법, 동적 계획법, 대기열 이론과 같이 오늘날 사용되는 여러 개념...

 

(순차적 문제)

많은 중요한 문제는 연속된 의사결정이 필요하다.

모델이 알려져 있고 환경이 완전히 관찰 가능하다는 가정하에 순차적 결정 문제의 일반적인 공식화에 초점을 맞출 것이다.

마르코프 결정 프로세스(MDP, Markov Decision Process)는 순차 결정 문제에 대한 표준적 수학 모델이다.

순차 결정 문제에 대한 논의는 전이와 보상 모델이 알려져 있다고 가정한다. 

 

(모델 불확실성)

많은 문제에서 역학 및 보상이 정확히 알려져 있지 않으며, 에이전트는 경험을 통해 행동하는 방법을 학습해야 한다. 

에이전트는 상태 전이와 보상의 형태로 행동의 결과를 관찰함으로써 장기적인 보상 축적을 극대화하는 행동을 선택해야 한다. 

모델 불확실성이 있는 이러한 문제를 해결하는 것이 강화학습 분야의 주제..

 

(상태 불확실성)

상태를 정확히 관찰하는 대신 상태와 확률적 관계만 있는 결과를 받는다. 이러한 문제는 부분적으로 관찰 가능한 마르코프 결정 프로세스로 모델링 할 수 있다.

 

(확률적 추론)

합리적인 의사결정에는 불확실성과 목표에 대한 추론이 필요하다.

 

실제 문제에는 많은 변수에 대한 분포 추론이 필요하다. 

 

(추론)

추론은 관측 변수 집합에 연결된 값들을 기반으로 하나 이상의 미지수에 대한 확률 분포를 결정하는 것이다.

 

 

[ 자평 ]

 

기계가 어떻게 추론을 하는지? 그 원리와 방식을 알고 싶어서 봤다.

800페이지 넘게 나같은 문돌이가 버거워 하는 수학 공식과 증명으로 철철 넘치는 책이다. 

일단 1장.  ~ 3장.만 우선 읽었다.

 

 

'읽은 책들' 카테고리의 다른 글

다 좋은 세상 by 전 헌  (0) 2025.02.24
삼체3: 사신의 영생, Death's End by 류츠신  (0) 2025.02.21
추론이란...  (0) 2025.02.11
이기는 정치학 by 최 병천  (0) 2025.02.10
삼체2 : 암흑의 숲 by 류츠신  (0) 2025.02.08
댓글