티스토리 뷰

728x90

[ 주요 내용 ]

 

ㅇ 우리가 생각하는 방법과 컴퓨터가 생각하는 방법은 애초부터 완전히 다른 것....

    다르기 때문에 컴퓨터는 1초 동안 수십억 번씩 계산할 수 있음.

 

ㅇ 가장 중요한 것은 된장국의 재료야. 된장국 전체를 '데이터'라고 한다면, 된장국 재료는 '정보'라고 할 수 있지. '정보'는 '데이터 중에서 가장 중요한 성분'이거든. 즉, 세상의 모든 것은 데이터가 될 수 있지만, 정보는 될 수 없는 거야..... 앞으로 데이터에서 중요한 정보를 찾아 내는 눈을 가진 사람들만 남들보다 앞서 나갈 수 있어.

 

물질을 구성하는 각 성분의 중요도는 다음의 성공 여부에 따라 결정된다...

    - 해당 물질의 특징을 만들어 내는 데 중요한 역할을 하는지 못하는지의 여부

    - 어디에서든 구할 수 있는 것인지 그렇지 않은 것인지의 여부

 

ㅇ 된장국의 성격을 규정하는 것은 수분을 제외한 나머지 성분이다...결국 수분을 제외한 나머지 성분의 비율에 따라 물질의 상태가 규정되는 것....이 때 나머지 성분은 '확실한 맛'을 가졌다고 할 수 있는데, 이러한 '확실한 맛'을 어느 정도 가지고 있는지를 측정하는 것이 바로 '정보량'이다.

 

ㅇ 데이터 중에서 특별히 중요한 부분만을 '정보'라고 한다. 중요한 부분이 들어 있지 않은 데이터는 단지 데이터일 뿐 정보가 될 수 없다.

 

ㅇ 나뭇가지 한 개와 양 한 마리를 대응시킨 것처럼 기호 한 개와 정보 하나를 대응시켜서 정보를 세는 것.....정보를 셀 때는 정보에 적당한 기호를 할당하여 기호의 개수를 세야 하는데, 이러한 할당 규칙이 바로 2진수나 10진수이다.

 

ㅇ 출현비율이 높은 문자의 모르스 부호는 짧다. 그래서 문자의 출현 비율과 신호의 길이는 반비례한다는 사실....

 

ㅇ 모르스 신호는...가끔은 비효율적이지만 전체적으로는 더 낫다. (효율성이 좋다)

 

ㅇ 세상에는 효율성이 뛰어난 신호와 그렇지 못한 신호가 있다. 좋은 신호는 어느 정도까지 더 좋게 만들 수 있고, 그 한계는 어디까지일까? 이것을 결정짓는 효율성을 우리는 '엔트로피'라고 부른다.

 

정보이론에서 사용하는 엔트로피...= 어떤 정보의 고마움 * 그 정보를 얻을 확률

 

ㅇ 출연 확률이 높을수록 고마움이 작고, 낮을수록 고마움이 크다...

 

엔트로피의 성질1: 각각의 확률이 같을 때 엔트로피가 최대가 된다.

    (전부 같은 확률일 때 엔트로피가 가장 크다)

- 주사위 눈은 1~6, 각각의 눈이 나올 확률은 1/6이므로 엔트로피는 2.58 ( -(밑이2인 log (1/6))

- 만일 사기꾼이 세공해서 1이 5번 (5/10=1/2)의 확률로 나오고, 2~6까지는 각각 1/10 확률로 나오도록 했다면, 엔트로피는 2.16으로 낮아짐

- 만일 1이 90%라는 높은 확률로 나오도록 했다면 엔트로피는 0.7까지 낮아짐

- 엔트로피는 모두 같은 확률로 나올 때가 가장 높다.

- 결국 주사위, 롤렛, 경마에서의 엔트로피가 의미하는 것은 결과를 예상할 수 없을 때가 가장 흥미롭다는 것. 즉, 어느 한쪽의 확률이 높아 쉽게 예상할 수 있는 것보다 똑같은 확률로 어느 것이 나을지 모를 때의 엔트로피가 가장 높고 흥미롭다.

 

엔트로피의 성질 2: 많은 양의 데이터를 계산한 후에야 의미가 있다.

- 하나의 단어만으로 출현 확률을 단정할 수 없다. (Zigzag란 단어만 조사하면 영어에서 가장 많이 사용되는 문자는 Z와 g라고 할 수 있다.)

-

 

ㅇ 엔트로피의 성질 3: 알고 있는 것은 가치가 없다.

- 절대로 있을 수 없는 것 = 확률 0 -> 깨진 컵 조각이 다시 모여 원래 상태로 돌아감

- 절대적으로 그렇게 되는 것 = 확률 100 -> 자석의 N극과 N극은 서로 밀어낸다.

- 두 가지 상황에서 엔트로피는 모두 0이 된다. 즉, 물어 보지 않아도 알고 있는 당연한 것에 대해서는 가치를 인정하지 않는 것

 

ㅇ 엔트로피의 측정 단위, 비트

 

ㅇ 전부 같은 확률일 때 엔트로피가 가장 크다. A ~ Z까지 문자와 공백이 모두 같은 확률(1/27=3.7%)로 나올 때의 엔트로피는 로그 함수로 계산하면 4.75가 됨. 즉, 4.75라는 수는 '알파벳26문자 +공백'을 사용한 데이터 한 문자가 가질 수 있는 최대의 엔트로피임

 

ㅇ und?rstand : ?에는 e밖에 없다는 결론은 e가 나올 확률이 100%라는 것 = 엔트로피가 0%이라는 말.

 

ㅇ 채널 : 데이터 속에 포함되어 있는 정보의 양인 '엔트로피'를 전달하기 위한 것...

 

ㅇ 정보는 눈에 보이지 않기 때문에 쉽게 수송할 수 있을 것 같지만, 한계가 있다.....정보는 정보의 크기인 엔트로피의 크기가 클 경우 좁은 파이프에 걸릴 수도 있다. 보이지 않는 정보를 수송하기 위해서는 어떤 방법을 사용해야 할지.....??

 

ㅇ 정보 이론의 아버지...클라우드 섀넌....'누군가와 정보를 주고받을 때 정보가 통과하는 파이프의 두께에 의해 정보량은 제한된다'는 사실을 최초로 발견...

 

ㅇ 정보의 크기가 추상적이어서 재기 힘든 것임에도 불구하고 '파이프의 두께'가 그 안을 통과할 수 있는 양을 결정할 수 있다는 것을 지적한 것.....정보를 보내기 위한 파이프를 '채널**(통신로)'라고 부름

 

ㅇ TV의 정보에도 전송되는 여러 개의 파이프(통신로)가 있는데, 시청자는 리모컨으로 여러 개의 파이프 중 하나를 선택할 수 있음

 

모든 것은 정보를 전달하기 위한 채널이다.....인간의 뇌도 하나의 채널이다.

 

ㅇ 채널을 통과할수록 엔트로피는 점점 낮아진다....보내는 쪽과 받는 쪽의 엔트로피를 계산할 수 있다면, 그 사이에 있는 것은 모두 '채널'이라고 볼 수 있다.

 

ㅇ 흰색 물감에서는 완전히 흰색만 나오기 때문에 엔트로피는 '0'이다. 마찬가지로 검정색 물감에서는 100% 검정색만 나오기 때문에 역시 엔트로피는 '0'...두 물감을 반 반섞어서 회색을 만들면, 반반씩 사용하게 되어 확률이 50%되기 때문에 확률이 1이 됨.....따라서 혼합한 후에 흰색과 검정색을 분리하려 해도 일단 늘어난 엔트로피를 감소시키게 되므로 불가능...엔트로피는 증가하는 쪽으로 움직임...

 

ㅇ 엔트로피가 최대 상태에 도달하면, 더 이상 움직이지 않는다.

 

ㅇ 정보란 의미를 갖는 것인데, 의미는 각 사람마다 다름...지성, 지식, 지능이란 무엇인가?라는 질문과 마찬가지로 영원히 답을 찾을 수 없을 것 같은 어려운 문제

 

ㅇ 현재 실행하는 부분을 가리키는 축음기의 바늘처럼, 프로그램 counter의 역할은 프로그램의 어디를 '연주'하고 있는지를 나타내는 것..

 

ㅇ 컴퓨터는 프로그램 카운터가 지시하는 장소를 참조 (메모리의 내용을 들여다보거나 그 정보를 다루는 것)한 후에 그곳에 적혀 있는 대로 행동합니다.

 

ㅇ OS와 같은 거대한 구조물을 만들때는 형태가 간단한 것이 좋기 때문에 층으로 나누고, 위아래 두 개의 층하고만 관계를 갖도록 만든다.

 

ㅇ 괴델의 불완전성의 정리....참인 모든 명제는 증명이 가능하다고 생각했었다. 그러나 괴델은 참이지만, 증명이 불가능한 식을 제시하여 그렇지 않다는 것을 보여 주었다...즉, 증명할 수 없는 문제가 있다는 것을 증명한 셈....'하나의 틀 안에서 사물을 완벽하게 만들어도 어디까지나 그 틀 속에서만 통용된다....

 

ㅇ 튜링 머신으로도 계산할 수 없는 문제가 있다는 것을 발견....예를 들면 '두 개의 튜링 머신은 같은 것일까? 그렇제 않은 것일까? ' = 두 대의 머신이 있는데, '두 대가 같은지는 모르겠다'는 의미....

 

ㅇ 튜링 머신은 무한의 메모리를 포함....튜링 머신으로 프로그램을 작동하면 멈추지 않고 계속할 수 있음...프로그램이 멈추지 않으면, 영원히 Yes인지 No인지를 결정할 수 없는 것....

 

ㅇ 튜링 머신(컴퓨터)라는 닫힌 틀 안에서는 그것이 진실인지의 여부를 확인할 수 있는 방법이 없다...'버그가 없는 상태는 있을 수 있지만, 버그가 없다는 것을 증명하는 것은 불가능하다.

 

ㅇ 컴퓨터 프로그램은 반드시 정해진 대로 움직이는데, 그 성질을 '결정성'이라고 한다. ...비결정성이란 '정해진 대로 움직이지 않는다'는 것보다 작동 순서가 정해져 있지만, 그것이 '한 개가 아니라 여러 개로 나뉘어져 있다'라는 뜻....그 중에서 어떤 길로 갈 것인가는 운에 달려 있기 때문에 프로그램의 경우에는 상황에 따라서 잘 작동될 수도 있고, 그렇지 않을 수도 있다.

 

 

 

[ 느끼 점/배운 점 ]

 

오늘 제임스 글릭의 'Information'이란 책을 다 읽었다.

600P가 넘는 두꺼운 책이었다. 다 읽으면서 이 책이 생각났다.

된장국의 비유를 통해서 엔트로피를 설명해 주는 것이 압권이었다.

 

이 책은 2002년에 나온 컴퓨터에 대한 대중서이다.

컴퓨터에 원리에 대한 대중서로 읽어 볼 만 한다고 본다..

 

엔트로피, 메모리, OS에 대한 부분은 핵심적이고 좋다.

다만 컴퓨터의 미래에 대하여 언급한 부분은 14년 지난 지금 보면 old한 느낌이 든다.

 

댓글