티스토리 뷰

728x90

[ 밑줄/연결 ]

 

확률은 어떤 사건이 일어날 것이라고 믿는 정도를 말하며...

 

확률은 순전히 어떤 사건이 일어날 가능성에 대한 이론적 개념이며 데이터가 필요하지 않습니다. 반면에 통계학은 데이터 없이는 존재할 수 없으며 데이터를 사용해 확률을 발견하고, 데이터를 설명하는 도구를 제공합니다.

 

 

(조건부 확률과 베이즈 정리)

 

확률에서 가장 헷갈리는 개념은 조건부 확률입니다. 사건 B가 발생했을 때 사건 A가 발생할 확률이죠. 일반적으로 P(A GIVEN B) 또는 P(A I B)와 같이 나타냅니다.

 

조건부 확률 P(커피 GIVEN 암) 또는 P(커피 I 암)으로 정의해보죠.이는 암에 걸린 사람이 커피를 마실 확률을 나타냅니다.

 

P(커피) = 0.65 : 미국 내 인구의 65%가 커피를 마신다.p(암) = 0005  : 미국 내 인구의 0.5%만이 암에 걸린다.P(커피 I 암) = 0.85  :  미국 내 암 환자의 85%가 커피를 마셨다???

 

일반적인 속성(커피를 마신다는 것)을 흔하지 않은 속성(암에 걸렸다는 것)과  연관시킨 엉터리 기사..사람들이 조건부 확률을 쉽게 혼동하는 이유는 조건의 방향이 중요한데, 두 조건이 동일하다고 혼동하기 때문..

 

'커피를 마시는 사람이 암에 걸릴 확률'은 '암에 걸린 사람이 커피를 마시는 확률'과는 다릅니다.커피를 마시는 사람 중 암에 걸린 사람은 거의 없지만, 많은 암 환자가 커피를 마십니다.

 

커피가 암에 연관이 있는지 연구하려면 커피를 마시는 사람이 암에 걸릴 확률, 즉 조건부 확률을 살펴봐야 합니다. 

 

P(커피 I 암) = 0.85P(암 I 커피) = ??

 

P(A I B) = P(B I A) * P(A) / P(B)P(암 I 커피) = p(커피 I 암) * P(암)/ P(커피)                    = 0.85* 0.005 / 0.065 = 0.0065

 

커피를 마시는 사람이 암에 걸릴 확률은 0.65%에 불과합니다. 

이 수치는 암에 걸린 사람이 커피를 마실 확률인 85%와는 매우 다릅니다. 

 

전체 인구 중 암에 걸렸으면서 커피를 마시는 사람의 확률을 구하고 싶다며...

P(커피)와 P(암)을 곱해야 할까요? P(커피)대신 P(커피 I 암)을 사용해야 할까요? 

 

옵션1:

P(커피) * P(암) = 0.65 * 0.005 = 00.00325

 

옵션2:

P(커피 I 암) * P(암) = 0.85 * 0.005 = 0.00425

 

결합 확률에 이미 P(암)이 포함되어 있으므로 P(커피 I 암)을 사용해야 합니다. 

 

어떤 사람이 암에 걸렸으면서 커피를 마실 확률이 0.425%라는 의미입니다.

P(커피 AND 암) = P(커피 I 암) * P(암) =  0.85 * 0.005 = 0.00425

 

P(암 I 커피 ) * P(커피) = 0.0065 * 0.005 = 0.00325

커피를 마시는 사람이 암에 걸릴 확률의 계산

 

 

 

(기술 통계와 추론 통계)

 

기술 통계: 데이터를 요약하는 것. 평균, 중앙값 등을 계산하거나 차트, 종 곡선으로 데이터를 설명하는 것

 

추론 통계: 표본을 기반으로 더 큰 모집단에 대한 속성을 발견하는 것. 

관측하기 너무 큰 집단을 연구하고 싶을 때 해당 집단의 일부 구성원을 통해 결론을 유추해야 하는 경우.

 

표본을 기반으로 모집단에 대한 속성을 추론하려면 결론이 왜곡되지 않도록 가능한 한 무작위하게 표본을 추출해야 합니다.

 

 

(신경망과 딥러닝의 한계)

 

특정 데이터셋의 특정 시점에 이 모델이 작동한다는 것을 보여줄 수는 있지만, 임상 현실에서는 이러한 모델이 제품 단계에 도달하려면 여전히 많은 작업이 필요합니다.

 

 

 

"문제는 한 가지 측정 기준을 선택하면, 그 기준에 맞춰 게임을 플레이하는 데 사용할 수 있는 모든 지름길을 택하게 된다는 것입니다. 예를 들어 체스를 두는 것을 지능의 척도로 설정하면 체스를 두는 시스템으로 끝날 것입니다. 다른 용도로 사용할 수 있을 거라고 생각할 근거가 없습니다. 결국 트리 검색과 최소 극대화로 끝나는데, 이는 인간의 지능에 대해 아무것도 가르쳐주지 않습니다...

우리는 이 연구를 과학적 연구라고 생각하지 않습니다. 왜냐하면 우리가 이미 알지 못했던 가르쳐주지 않기 때문입니다. 어떤 열린 질문에도 답하지 못합니다. "X를 초인적인 수준으로 플레이할 수 있을까?" 라고 질문한다면 그 대답은 다음과 같습니다. "충분히 밀도 높은 훈련 상황 표본을 생성하고 이를 충분히 표현력 있는 딥러닝 모델에 공급할 수 있다면 가능합니다." 우리는 이미 오래전부터 이 사실을 알고 있었습니다."

- 케라스 개발자, 프랑소와 숄레 - 

 

게임에서의 알고리즘 성능과 아직 해결되지 않은 범용적인 능력을 혼동하지 않도록 주의해야 합니다. 

머신러닝, 신경망, 딥러닝은 모두 좁게 정의된 문제에서만 작동합니다. 이들은 폭넓게 추론하거나 스스로 작업을 선택하거나 이전에 본 적이 없는 사물을 숙고할 수 없습니다. 다른 코딩된 애플리케이션과 마찬가지로 프로그래밍된 작업만 수행합니다.

 

대부분의 일상 업무에서는 선형 회귀, 로지스틱 회귀 또는 기존의 규칙 기반 시스템과 같이 더 단순한 모델을 사용하는 것이 성공적일 가능성이 높습니다. 하지만 이미지에서 객체를 분류해야 하고, 해당 데이터셋을 구축할 예산과 인력이 있다면 딥러닝이 최선의 선택일 것입니다. 

----> 이 책의 원서는 2022년에 나왔다.

----> 수많은 천재들과 자본이라는 욕망이 엮이고 얽힌다면, 아무리 한 사람의 천재라도 그 사람이 예견을 뛰어 넘는 Route가 생성되는 것 같다. 

----> 2025년 3월 현재도 이렇게 말할 수 있는지 모르겠다. 추론 능력과 AI Agent 능력이 하루가 다르게 놀랄 정도로 시장에 나오고 있는 상황이라....

 

 

(인공지능의 겨울이 올까요?)

 

신경망은 인간의 뇌에서 느슨하게 영감을 받았지만 결코 인간의 뇌를 복제한 것은 아닙니다.

스스로 추론하거나 작업을 선택할 수 없으며, 불확실성이나 이전에 본 적이 없는 사물을 고려할 수 없습니다. 

신경망과 딥러닝은 프로그래밍된 작업만 수행합니다.

---> 2022년의 저자의 의견이 2025년인 이제는 서서히 수정되지 않을까 싶다.

 

또 다른 인공지능 겨울이 다가올 가능성이 높지만, 그렇다고 신경망과 딥러닝의 유용성이 사라지는 것은 아닙니다. 

신경망과 딥러닝이 잘하는 문제인 컴퓨터 비전, 오디오, 자연어 및 기타 몇 가지 영역에서는 계속 활용될 것이며 새로운 활용법을 발견할 수 있을지도 모릅니다. 

 

 

 

(데이터 과학의 재정의)

 

데이터 과학은 실행 가능한 통찰을 얻기 위해 데이터를 분석하는 것입니다.

데이터 과학에 대한 명확한 정의가 없다는 것이 이 분야에서 지속적으로 문제가 되었습니다.

결국, 정의가 부족한 모든 것은 추상 예술 작품처럼 해석의 여지가 넓기 때문입니다. 

 

 

실용적인 해결책을 위해서는 과대광고를 피하고, 기술적인 부분에 너무 얽매여 시장의 힘에 눈이 멀어서는 안 된다는 사실을 잊지 마세요. 경영진과 리더십의 동기뿐만 아니라 일반적인 사람들의 동기를 이해하세요. 어떻게 작동하는지뿐만 아니라 왜 작동하는지 이해하세요. 기술이나 도구가 기술적으로 어떻게 작동하는지가 아니라 왜 문제를 해결하는지에 대해 호기심을 가져야 합니다....

가장 효과적인 학습 방법은 흥미를 느끼는 문제(도구가 아니라!)를 선택하는 것입니다. 

-----> 고수가 평이하게 쓴 멋진 조언이다. 

 

 

[ 자평 ] 쓴다고 하는 수준과 쓴다고 하는 내용으로 정말 잘 썼다. 번역 또한 역시 밑고 있는 박해선씨 답게 깔금하다. 

댓글