티스토리 뷰

728x90

[ 밑줄 ]

 

(Part 1. 증거와 데이터에 기초한 추론)

 

"인간의 뇌는 놀라운 컴퓨터다. 뇌는 부정확한 정보를 엄청난 속도로 해석한다. 시끄러운 방에서 속삭이는 소리와 희미한 골목에서 나타난 얼굴을 구분하고, 정치 성명서의 숨겨진 어젠다를 알아낸다.

무엇보다 인상적인 것은 뇌가 어떤 명시적 지시 없이도 학습하고, 이런 기술이 가능하도록 내부에 연상을 만든다는 사실이다." 

- Geroffrey E. Hinton, Scientific American, September 1992 -

---> 학부때는 MIS를 전공하고 40대 이후로 뇌에 관한 수백원을 책을 읽은 나는 이 비유는 굉장히 잘 못되었다고 생각한다. 이 비유는 컴퓨터 기반에서 인공지능을 전공한 사람들에 맞춘 비유다.

--> 뇌는 놀라운 컴퓨터가 아니다. 뇌는 컴퓨터처럼 작동하지도 않는다. 뇌는 그냥 뇌고, 컴퓨터는 그냥 컴퓨터다. 잠수함이 물속을 다닌다고 기계로 만든 물고지가 아닌 듯..... 비행기가 하늘을 난다고 기름으로 나는 새가 아니 듯...

 

인공지능 기술 확산이 충격을 주는 이유는 아마도 기계가 대체할 수 없다고 생각했던 인간의 높은 지적 능력, 학습과 추론 능력을 대체하고 있기 때문일 것이다.

사람의 명령에 따라 계산을 수행하는 '어리석은 컴퓨터'가 아니라 데이터로부터 규칙을 학습하고 논리적 추론에 따라 문제의 해법을 찾아내는 단계가 된 것이다.

 

인공지능이 종전의 컴퓨터와 달라진 점, 새로운 면모는....

첫째, 인식(Recognition)능력.. 특히 사람의 말을 알아듣는 자연어처리 능력....이미지 인식 능력도 빠르게 발전하고 있다.

둘째, 학습과 이를 바탕으로한 추론 능력. 지식과 경험을 축적하고 이를 바탕으로 문제의 해답을 찾는 능력..

 

사람과 인공지능의 추론방식 차이, 복잡하게 얘기하면 사람은 시간에 대한 적분기계이고 인공지능은 미분기계라는 점이 상호 협력의 기초가 될 것이다.

--> 굉장히 멋진 통찰이고 문장이다. 저자가 좀 더 덧불였으면 좋았을 것을.....

 

시스템이 그 자체로 알아서 문제를 해결해준 사례는 없다. 인공지능도 마찬가지다.

명확한 목적 의식과 도구로서 인공지능에 대한 이해가 있어야 비로소 현장의 문제를 해결할 수 있다.

 

좋은 데이터를 만드는 일이 대수롭지 않아 보이겠지만 실제 현장에서는 가장 어려운 일이다.

 

컴퓨터가 사상을 표현하는 벡터 공간 개념과 연산 처리에 활용하는 선형대수의 기본 원리를 알면 도움이 될 것 같다.

벡터는 '크기와 방향을 동시에 나타내는 물리량', 선형대수는 '차원으로 분리된 수의 나열'을 뜻한다.

 

문제가 최대값이나 최소값을 찾는 최적화든, 어떤 사상의 분류나 근접성을 파악하는 것이든지 벡터공간 내에서 해법을 찾을 수 있다. 현실 세계를 가상의 벡터공간으로 투영하고 그 안에서 논리적 알고리즘 계산을 통해 해결책을 찾는 것이 데이터 과학이다.

 

불확실한 상황에서 끊임없이 최선의 의사결정을 해야 한다. 삶 자체가 불확실성 상황에서 하는 의사결정의 연속이다. 

 

전통적 통계학 방법론의 한계는....

통계학의 핵심은 가설 검증, 파라미터의 추정이다. 그리고 확률론이 추론의 이론적 토대가 된다. 

비교적 적은 표본(Sample)의 정보를 바탕으로 전체 모집단의 성격을 파악하는 구조다.

 

표본 선택 왜곡(Sample Selection Bias)문제는 거의 항상 생긴다. 이상적인 임의 표본 추출은 불가능할지도 모른다. 

다른 문제는 상관관계와 인과관계의 혼동이다. 예를 들어, 폭력적인 게임을 많이 하면 폭력적이 되는가?, 아니면 폭력적인 성향이 있으니 폭력적인 게임을 좋아하는가? 

 

현실적인 한계는 비용과 속도 문제다.....시차 문제가 생긴다.

알고 싶은 것은 현재의 상황인데 항상 과거의 모습을 보여준다.

 

행동경제학에서 인간 휴리스틱(어림짐작)의 기저율(Base Rate) 무시 오류를 지적하는 사례가.....조건부확률의 대표적 사례다. 

 

새로운 정보를 얻어서 그 이전의 믿음을 바꾸는 과정을 '베이지안 재조정(Bayesian Update)'이라고 하는데 사람들의 인식체계는 의식하지 못하는 사이에 베이지안 재조정을 계속하고 있다.

 

포아송 분포는 이산확률분포다...

'단위 시간 또는 단위 공간에서 어떤 사건이 몇 번 발생하는가'로 표현한다. 예를 들어 한 시간 동안 걸려온 전화 수, 하루에 상점에 방문하는 고객 수 등을 나타낸다.

 

고전적인 통계 추론은 가설과 검증이 중심이다. 가설과 확률분포를 가정하고 데이터가 이 가설을 지지하는지 검증한다...

이에 반해 베이지안 추론에서는 데이터가 우선이다. 고전적인 통계 추론에서는 모수(parameter)를 사전적으로 고정된 가설로 취급하지만 베이지안 추론은 모수를 확률변수(Random Variable)로 취급하고 데이터를 바탕으로 이를 추정하기 때문에 데이터가 모수를 생성하는 모델(Generative Model)로 기능한다.

 

감각(Perception)만으로 인지(Recognition)에 이르지 않는다.

어떤 경험을 통해 대상을 인식할수 있으려면 감각기관 위에서 작동하는 이해의 범주가 사전적 필수조건이다. 더 쉽게 말하면 "우리가 알지 못하는 것을 인지할 수 없다."는 뜻이다. 앏이 선험적이든 학습과 경험을 통한 것이든 그렇다.

 

(Part 2. 인공지능이 일하는 방식, 그리고 사람과 데이터)

 

어쩌면 데이터 과학은 일반적으로 생각하는 '과학'이 아닌지 모른다. 기업을 중심으로 현실의 문제를 해결하기 위한 기술에 가깝다.

 

인간의 뇌는 학습과 경험을 통해 형성된 직관이 그 바탕이다. 그리고 이런 직관의, 근원이 사람 두뇌의 추상화 능력이다. 인지부터 연역적 추론까지 추상화 과정을 거쳐서 직관이 형성된다.

 

[ 자평 ]

 

저자의 경력이 특이하다.

1970년 강원도 생이라. 나와 시간적/공간적 차이가 크지 않다.

 

정책경제학을 전공하고 1992년 행정고시에 합격하여 93년 부터 공직생활을 했다고 한다. 

고용노동부에 계속 계신 것으로 되어 있는데.....

 

책은 인공지능에 대한 개념과 그 개념을 'R'이란 통계 패키로 간단히 구현하는 방식을 되어 있다.

스스로 상당히 공부를 많이 하지 않는다면 정리되기 어렵다. 

 

열정적으로 고민하고 배우는 삶은 그가 남긴 편린에 다 베어져 나온다.

삶이란 그런 것이다. .

댓글