티스토리 뷰

728x90

[ 주요 내용 ]

 

ㅇ 영국 수상이었던 벤저민 디즈레일리 (Benjamin Disraeli)는 말했다. "거짓말에는 세 가지 종류가 있다. 거짓말, 새빨간 거짓말, 그리고 통계."

 

ㅇ 모든 수단이란 어떻게 쓰느냐에 따라 유용하거나 오용될 수 있다. 통계학만 유달리 그런 것 아니기 때문이다.. 그것이 진실인 까닭은 우리가 세상을 있는 그대로가 아니라, 우리가 보고 싶은 대로 보려고 하기  때문이다.

 

사실을 솔직하게 제시하는 것은 능력이 아니라 의지의 문제이다. 그런데 수많은 데이터 범죄자들에게는 이러한 의지가 전혀 없어 보인다.

 

ㅇ 데이터 있는 한, 데이터 조작도 항상 있다.

 

옷에 따라 사람이 달라 보이듯, 정교한 숫자는 권위를 만든다.

 

ㅇ 가령 실업률이 5년 사이에 2.5%에서 3%로 증가했다고 해보자. 이때, 실업률이 0.5% 증가했다고 표현하면 틀린 것이다. 실업률이 0.5%p 증가했다거나 실업률이 20% 증가했다고 해야 옳다.

 

ㅇ 1990년 제조업 임금상승률은 20.2%인 데 비해 노동생산성은 12.9% 상승해 임금상승률이 7.3%p 놓았다고 표현하는 것도 잘못되었다. %끼리의 비교는 계산된 데이터가 같은 경우에만 가능하다. 따라서, 임금상승률과 생산성이라는 각기 다른 데이터를 동일한 변수로 취급하여 뺄셈을 해선 안 된다.

 

ㅇ 어떤 사안에 대해 응답자의 67%가 찬성했다고 하면, 대다수가 찬성했다는 인상을 받게 된다. 하지만 3명에게 물어 2명이 찬성해도 67%가 된다. 이렇게 조사 대상의 규모가 너무 작을 경우, % 값을 제시하는 것은 음흉한 의도를 숨기기 위한 수단일 가능성이 높다.

 

 

ㅇ 자살이 특히 청소년들에게 그토록 큰 비중을 차지하는 이유는 다만, 청소년이 다른 원인에 의해 죽는 경우가 일반적으로 더 적기 때문이다.....다시 말해 이 연령대에서는 사고, 살해, 자살이 거의 유일한 사망 원인이기 때문에, 사망자들 중 자살자의 비율이 높은 것은 전혀 놀랍지 않다.

 

ㅇ 오류는 항상 동일하다. 이와 같은 논리대로 하면, 병원이 생명을 더 위협하며 (독일 국민의 절반 이상이 그곳에서 죽는다), 공립학교가 범법자를 양산하고 (독일 교도소의 거의 모든 수감자들이 공립학교 출신이다.)....

 

시속 200km로 달릴 때 50km로 달릴 때 보다 사고가 적게 일어나는 까닭은 무엇보다도 그렇게 빠른 속도로 운전하는 사람이 많지 않기 때문이다.....낮 동안에 밤보다 더 많은 사고가 나는 것도 같은 이유에서다.

 

ㅇ %는 정보를 전달할 뿐만 아니라 은폐하기도 한다. 분자와 분모로 표현된 수도 백분율로 하면 하나의 숫자가 된다. 이것은 정보를 손상시킨다. 가령, 5분의 1이나 35분의 7 또는 585분의 117이라는 분수는 모두 동일한 확률, 즉 20%를 나타내지만, 각 분자와 분모들은 서로 다르다. 따라서 이것들 중 하나를 숨겨야 할 필요가 있는 사람은 %로 말하는 것을 좋아한다.

 

ㅇ 물가가 150에서 160으로 오르는 것은 10%p, 그러니까 10/150=6.6% 상승에 해당한다. 따라서 물가 변동이 가능한 작게 보이고자 할 경우에는 %를 휠씬 선호한다.

 

ㅇ 최상급 표현들은 인위적으로 만들 수 있다....어떤 성과가 아무리 평범하다 하더라도 항상 하나의 최상급을 불일 여지는 있다..

 

ㅇ P113 ~ P115

 

 

 

ㅇ 어떤 최상급 표현이 인위적인이 아닌지 알아보는 간단한 test가 있다. 비교 기반을 확대하는 것이다. 그렇게 해도 여전히 최고라는 말을 쓸 수 있다면 그것은 신뢰할 만하다.

 

ㅇ 우리가 라디오를 통해 듣고 TV를 통해 보고, 신문에서 읽는 소식들은 항상 모든 가능한 소식들의 임의추출 표본에 지나지 않으며, 더구나 미디어의 선입견과 세계관에 따라 선별된 임의 추출 표본이다. 이 때문에 우리는 세상을 있는 그대로가 아니라 일간신문 편집진이 보는 방식으로 보게 되는 것이다.

 

ㅇ "통계적으로 입증되었다. 주차장에서 카메라를 싣고 있지 않은 차는 절대 카메라를 도난당하지 않았다."

 

설문조사들은 여론을 측정하려는 것이 아니라 형성하려는 것이다.

 

ㅇ 왜냐하면 대부분의 사람들은 '아니오'보다 '예'라고 대답하는 것을 더 선호하기 때문이다...

 

ㅇ 중국의 한 마을에는 어떤 때는 2,800만 명이, 또 어떤 때는 1억 500만 명의 사람들이 살고 있다. 첫 번째 조사는 징병검사와 세금징수를 위한 것이고, 두 번째 조사는 흉년이 들어 구호품을 분배하기 위한 것이다.

 

ㅇ 평균에서는 본질적으로 모든 수치의 절반 정도가 평균값 이하에 자리하게 된다. 중앙값에서는 그 이하가 심지어 정확히 절반이다......조사에서는 평균 수입의 절반 미만의 액수를 버는 사람은 가난한 것으로 간주...이것은 왜 빈곤이 사라질 수 없는지에 대한 이유를 제시한다. 어떤 식으로 돈을 벌거나 혹은 어떤 식으로 지급받는다 하더라도,평균치의 절반 이하를 버는 사람들의 비율은 일정하게 유지될 것이다.

 

ㅇ '빈곤 지수'가 실제로 측정하는 것은 우리가 상식적으로 이해하는 빈곤 그 자체가 아니라 불균등, 즉 상대적으로 많이 가진 사람들과 상대적으로 적게 가진 사람들 사이의 괴리이다.

 

ㅇ 현실에서 두 변수 사이의 인과관계를 밝히는 일은 매우 복잡하고 까다롭다. 인과관계가 성립하기 위해서는...

1) 원인은 결과보다 시간적으로 앞서야 하고

2) 원인과 결과는 서로 관련이 있어야 하고

3) 결과는 원인이 되는 변수에 의해서만 설명되어야 한다는 3가지 조건을 충족시켜야 한다. 하지만 많은 사람들이 그 중 한가지만 충족되어도 서로 인관관계가 성립하는 것처럼 여기는 데서 문제가 발생한다.... 신용카드 사용액이 증가했다는 것만으로 소비가 급증했다고 성급하게 결론내거나, 우울증 치료를 받은 환자 수가 늘었다는 통계만으로 우울증이 확산되고 있다고 보도하는 것은 위험하다.

 

유의미하게 인위적으로 만드는 비결은 간단하다. 최초의 가설에 가급적 불리한 표본을 제거하고, 확률을 계산할 때 그 표본이 임의추출로 선별된 것처럼 처리하는

 

ㅇ 단점..국민 총생산은 실제로는 전혀 아무런 변화도 없고 다만 물가만 오를 때도 증가한다.

 

ㅇ 사회공동체가 원할하게 돌아가기 위한 선불금으로 여겨지는 것....경찰, 사법기관, 소방서와 군대 서비스 그 자체는 아무도 원하지 않는다. 이것들은 원래 바라던 것, 즉 평화와 질서, 안전을 위해 필요한 자원일 뿐이며, 따라서 엄밀하게 따지자면 선불금으로 총 생산액에서 차감되어야 한다.

 

 

[ 느낀 점/배운 점 ]

 

문과를 다닌 나는 수학의 정석 II에서 확률과 통계 부분은 포기하는 부분이었다.

대학교 때 경영수학, MBA 때 경영통계도 겨우 통과했다.

(이 때는 통계를 계산하는 것이 아니라 분석된 통계를 해석하는 것이었는데도...)

 

직장을 다니면서 수학 정석 수준의 확률이나 조합, 순열, 베이지안 통계 같은 것을 실무적으로 쓸 일은 없었다. 다행이다....

 

이 책과 유사한 Concept으로 쓰여진 책들은 몇 권 있다.

(통계에 속지 말자는 컨셉으로 어떤 부분에서 속을 수 있는지를 예를 들어 주는..)

이 책이 1991년에 초판이 나왔고 국내에는 2009년에 나왔으니 선두 그룹에 있는 책이라고 할 수 있다.

 

특히 그래프와 %를 조심하라는 주장을 자세한 예시를 들어 설명해 줄 때는

내가 늘 속아 왔구나 라는 생각에 무릎을 치게 되었다.

 

넘버스, 숫자가 당신을 지배한다 : 모르면 당하는 확률과 통계의 실체

통계로 읽은 세상 이야기 - 괴짜 통계학

통계의 거짓말.....

 

넘버스, 숫자가 당신을 지배한다괴짜 통계학통계의 거짓말

 

당신이 몰랐던 통계 오류 : 데이터 과학과 분석을 위한 통찰 --> 이 책은 대중서가 아니라 전문서이다. 사회 과학에서 쓰이는 통계가 근본적으로 어떠한 오류를 발생시킬 수 있는지 지적해 주는 좋은 책이다. 난 논문을 쓰거나 이 쪽으로 밥 먹고 살지 않기에 다 읽을 필요는 없었지만 좋은 책인 듯 하다.

 

당신이 몰랐던 통계 오류

 

 

하지만 저자의 말처럼 통계가 늘 부정의 수단만은 아니다.

빅 데이터 시대에 통계는 어차피 기본적인 것은 알고 가야 할 필요가 있다.

그런 측면에서 교재 정도는 아니지만 가끔씩 머리 회전의 방향을 새롭게 하기 위해 통계 관련한 대중 과학서는 일부러 읽었다.

 

책장에  꽂혀 있는 것들 중 중 괜찮은 것들은....

통계의 미학: 통계는 세상을 움직이는 과학이다

신을 주사위 놀이를 하지 않는다.

통계를 알면 인생이 달라진다.

통계적으로 생각하기- 빅데이터 세상을 꿰뚫어 보는...

통계학을 떠받치는 일곱 기둥 이야기

퇴근시간이 빨라지는 비즈니스 통계입문

 

통계의 미학신은 주사위 놀이를 하지 않는다통계를 알면 인생이 달라진다

 

통계적으로 생각하기통계학을 떠받치는 일곱 기둥 이야기비즈니스 통계 입문

 

엄밀히 통계분야 책인 지는 모르지만 페르마 추정에서 쓰이는 가추법을 사용해서 어떻게 가설과 검증을 해가는지를 보여주는 좋은 책..

괴짜가 사랑한 통계학

 

인공지능을 좀 더 깊이 있게 이하하려면 통계라는 길목을 거치지 않고는 갈 수 가 없다. 해서 겨우 대충 훑어 보며 책장에 꽂혀 있는 것들로는...

'밑바닥부터 시작하는 데이터 과학: 데이터 분석을 위한 파이썬 프로그래밍과 수학, 통계 기초'....

 

데이터 과학

 

댓글