Article at a Glance –자기계발
미국에서 조사된 결과를 보면 대학 졸업 여부와 소득 사이에는 상관관계가 존재한다. 즉 대학 졸업자는 대체로 소득이 높은 경향을 보인다. 하지만 상관관계를 인과관계와 혼동해서는 안 된다. 즉 두 요인 사이에 상관성이 있다고 해서 그것을 원인과 결과로 치환할 수 있다고 착각해서는 안 된다. 예컨대 대학을 나와야 소득이 높아진다고 해석하는 것은 오류다. 실제로는 소득이 높아서 대학에 진학한 것일 수도 있고, 대학을 안 나와도 높은 소득을 얻을 수도 있다. 상관관계와 인과관계를 명확히 구분해야 하는 이유다.
담뱃값이 2500원에서 4500원으로 무려 80% 인상된 지 한 달여가 지났다. 정부는 OECD 국가들보다 높은 흡연율을 낮추고 국민건강을 증진시키기 위해 부득이 담뱃값을 올릴 수밖에 없다고 주장한다. 이 말 속에는 담뱃값과 흡연율 사이에 상관관계는 물론 인과관계까지 존재한다는 판단이 들어 있다. 즉 담뱃값과 흡연율은 상관이 있으며 담뱃값을 인상하면 흡연율을 낮출 수 있다는 것이다. 과연 그럴까? 여러 나라들의 실제 사례를 보면 담뱃값과 흡연율 사이에는 어느 정도 상관이 있는 것으로 나타나고 있다. 하지만 담뱃값이 오르면 흡연율이 낮아지는지에 대한 인과적 결론은 나지 않은 상태다. 흡연율은 담뱃값 인상율의 폭과 경제상황, 개인소득 등 다른 요인에 의해서도 영향을 받기 때문이다. 예를 들어 과거에 담뱃값이 2000원에서 2500원으로 인상된 것과 이번처럼 2500원에서 4500원으로 크게 인상된 것은 전혀 다른 상황이다. 더욱이 경기가 활성화되고 소득이 높아지는 상황에서의 담뱃값 인상과 요즘처럼 경제가 어렵고 고용이나 개인소득이 불안한 상황에서의 인상은 그 영향이 전혀 다를 것이다. 이번 글에서는 현실 속에서 자주 혼동하는 상관관계와 인과관계를 다양한 사례와 함께 다뤄본다. 1)
사람들은 이것과 저것이 ‘관계가 있다’ 혹은 ‘관계가 없다’라는 표현을 자주 쓴다. 통계적으로 어떤 것들끼리의 관계는 상관관계로 나타낸다. 상관관계는 어떤 변수가 증가할 때 다른 변수가 함께 증가하는지, 혹은 감소하는지 관찰해서 파악한다. 예를 들어 체중과 신장 사이에는 양의 상관관계가 있다고 할 수 있다. 키가 커지면 대체적으로 체중이 증가한다는 의미다. 어떤 상품의 가격과 수요 사이에는 음의 상관관계가 있다고 할 수 있다. 가격이 오르면 대개 그 상품에 대한 수요가 줄어든다. 이런 상관관계가 얼마나 밀접한가는 상관계수로 표시하는데 상관계수는 -1에서 1까지의 값을 갖는다. 상관계수가 음수면 음의 상관을, 반대로 양수면 양의 상관을 갖는다. 상관계수가 0이라면 서로 관계가 전혀 없음을 의미한다. 2)
꽤 오래 전부터 사람들은 상관관계의 개념을 이해하고 생활에 적용해 왔던 것 같다. 그중에서도 주로 여러 가지 현상을 설명하기 위한 하나의 방법으로 그것을 그전에 일어났던 다른 사건과 관련시켜왔다. 그렇게 해서 좋은 일이나 나쁜 일에 대한 징조를 미리 알고 대처하려는 목적이었을 것이다. 소크라테스는 재채기를 그의 악처(惡妻)가 발작하는 조짐으로 믿어서 재채기가 나기 무섭게 집을 빠져나갔다고 한다. 유사한 경험이 다른 사람에게도 반복되면 특정 개인으로부터 시작된 조짐이 모든 사람에게 해당되는 징조로 발전한다. 거울이 깨지면 나쁜 일이 일어난다든지, 상여가 지나가는 것을 보면 좋은 일이 일어난다든지 하는 믿음이 그 예다. 상관관계에 대한 추측이 더 많이 축적된 경험을 바탕으로 상당히 세련된 체계를 갖추게 될 때도 있다. 별들의 움직임과 세상의 일을 관련짓는 점성술을 비롯해 골상(骨相), 수상(手相), 관상(觀相), 족상(足相) 등이 그 예다. 그중에서도 주역(周易)은 출생의 사주(四柱)가 동양사상의 근본이 되는 음양(陰陽)이론과 접목되면서 가장 세련되고 정교한 체계를 갖춘 것으로 볼 수 있다.
상관관계가 활용되는 사례는 많다. 예를 들어 자동차보험에 가입하려면 먼저 운전자에 대한 여러 가지 정보를 제공해야 한다. 그중에서도 나이, 성별, 결혼 여부 등은 보험료를 산정하는 데 중요한 기준이 된다. 나이가 25세 미만이면 보험료가 올라가고 운전자가 여자라면 보험료가 낮아진다. 왜일까? 나이와 성별이 사고율과 상관관계를 갖기 때문이다. 즉 젊을수록 사고율이 높고 여자들은 남자에 비해 사고를 덜 낸다. 대학 입시에서는 내신 성적과 수학능력시험이 함께 고려된다. 과연 어떤 성적이 학생의 학력을 더 잘 반영하는가는 입시 성적과 입학 후 성적의 상관관계를 통해 분석할 수 있다. 최근 한 대학교 학생들을 대상으로 조사한 연구에 따르면 내신 성적이 대학에서의 성적과 상관관계가 더 높게 나타났다. 다른 대학의 자료에서도 유사한 결과가 나온다면 수학능력시험을 굳이 치르지 않고 내신 성적만으로 입시가 충분하다는 주장의 근거가 될 수도 있다.
인과관계의 조건
발이 큰 사람에게는 종종 도둑놈 발을 가졌다는 말을 한다. 확인할 길은 없지만 아마도 과거에 도둑 중에는 발 큰 사람이 많았다는 인식이 전해진 탓일 것이다. 비슷한 예로 코가 크면 무엇도 크다는 말이 있다. 이런 상관관계는 구체적인 자료로 입증되지 않은 우스갯소리에 불과할 수도 있고 오랫동안 축적된 경험에 근거한 상관관계로 볼 수도 있다. 하지만 이 말 속에는 어떤 인과관계가 암시돼 있지는 않는 듯하다. 발이 크니까 도둑이 될 것이라든가, 코가 크니까 그것이 클 것이라든가 하는 말을 심각하게 받아들이는 사람은 없을 것이다.
관상에서 나온 말이지만 거의 상식처럼 받아들여지는 말 중에 ‘인중(人中)이 길면 오래 산다’는 말이 있다. 인중이란 코와 윗입술 사이의 오목한 부분을 말한다. 이 말을 어떻게 해석할 수 있을까? ‘오래 사는 사람 중에는 인중이 긴 사람이 많다’고 해석하면 단순히 둘 사이에 상관관계가 있다는 것을 인정하는 것이다. 그러나 ‘인중이 긴 사람은 오래 산다’고 해석한다면 둘 사이의 인과관계를 가정하고 있는 것이다. 그렇다면 상관관계는 원인과 결과의 관계를 나타내는 것일까? 절대 아니다! 상관관계는 어떤 것들 사이의 관계가 밀접하다는 것을 나타낼 뿐이며 어느 것이 원인이고 어느 것이 결과인지에 대해서는 아무 증거를 제공하지 않는다. 문제는 상관관계를 제대로 이해하지 못하는 사람들이 종종 상관관계가 인과관계를 나타낸다고 추측하는 데 있다. 즉 상관이 있으면 그중 하나가 원인이 되고 다른 것은 그 원인으로 인해 생기는 결과라고 해석하는 잘못을 범하는 것이다.
1) 이 글에 제시되는 사례들은 필자의 졸저 <우리가 정말 알아야할 통계상식 백가지(현암사, 1996)>와 <괴짜 통계학(한국경제신문, 2008)>을 참조.
2) 상관계수는 선형(線形: linear) 상관만 측정하므로 상관계수가 0이라는 말은 선형관계가 존재하지 않는다는 의미와 같다.
인과관계는 매우 복잡한 개념으로 학자들의 견해도 다양하게 변해왔다. 그중에서도 철학자 밀(John S. Mill)은 인과관계 성립조건으로 다음의 3가지를 제시했다. 3) 첫째, 원인이 결과보다 시간적으로 앞서야 하고, 둘째, 원인과 결과는 관련이 있어야 하며, 셋째, 결과는 원인이 되는 변수만으로 설명이 돼야 하고 다른 변수에 의한 설명은 제거돼야 한다는 것이다. 그러나 이런 조건들이 만족됐다 하더라도 그것은 인과관계를 추론하는 데 합리적 근거가 될 수는 있지만 인과관계의 존재가 입증됐다고 할 수는 없다. 다른 데이터로부터 축적된 유사한 결과와 연구자의 경험적인 판단이 인과관계를 확인하는 데 중요한 추가적 역할을 한다. 이 과정에서 사람들은 단순한 상관관계를 인과관계로 해석하는 오류를 많이 범한다.
현실에서 아무렇게나 고른 두 변수를 조사했을 때 두 변수가 전혀 관계 없는 경우보다 작게라도 상관관계를 나타내는 경우가 더 흔하다.
우연한 상관관계
두 개의 변수들은 상관관계를 갖지만 4) 그저 우연의 일치일 뿐 서로 인과관계가 없을 때도 많다. 다시 말해 현실에서 아무렇게나 고른 두 변수를 조사했을 때 두 변수가 전혀 관계 없는 경우보다 작게라도 상관관계를 나타내는 경우가 더 흔하다. 통계학에서는 이를 허위(spurious) 관련성이라고 하는데 이런 상관을 확인하려면 다음의 변수들을 연도별로 조사해서 상관관계를 구해보면 된다. 담배소비량, 피부암 환자 수, 청소원의 월급, 단층촬영기계의 수, 의치 생산량, 대학생 총수 등등. 놀랍게도 이들 변수 간에는 대부분 상관관계가 존재할 것이다. 이런 상관관계는 대부분 우연에 의해 얻어지는 상관일 뿐이다. 문제는 이런 상관관계를 어떤 인과관계가 있는 것처럼 해석할 때 생긴다.
인과관계를 잘못 판단한 가장 엉터리 주장의 예를 들어보자. 미국의 한 과학자는 남자아이들의 지능과 바지 길이 사이에 아주 높은 상관관계가 있다는 것을 알아냈다. 그래서 그는 남자아이들의 지능을 높일 수 있는, 비교적 적은 비용의 방법으로 바지 길이를 늘리라고 제안했다. 아무리 숫자에 자신이 없는 수문맹인 사람이라도 이 제안이 어딘가 이상하다는 것을 느낄 수 있을 것이다. 미니스커트 길이와 경기상황과는 상관관계가 있다. 심지어는 이를 이용해서 미니스커트의 길이로 그해의 경기를 예측하기도 한다. 즉 미니스커트 길이가 무릎 위로 올라갈수록 경기가 좋아지고 반대로 무릎 아래로 내려갈수록 경기가 나빠질 것이라고 예측한다. 여기에 그럴듯한 이유까지 덧붙인다. 치마길이는(혹은 노출의 정도는) 여자들의 낙관적인 혹은 비관적인 전망의 상대적인 정도를 나타낸다고 억측하고, 또한 소비의 많은 부분은 여자들에 의해 결정되므로 여성들의 전망에 따라 경기 방향이 결정된다는 것이다. 실제로 스커트 길이와 경기지수 사이에 상관관계가 입증됐는지는 확인할 수 없으나 만약 상관이 있더라도 그것은 그저 우연일 뿐이다.
뉴스거리를 찾는 언론에 상관관계는 흥미 있는 기삿거리가 된다. 담뱃값과 흡연율이 관계를 갖는다든지, 태양의 흑점활동과 테러리스트의 활동이 관계를 갖는다든지, 학교 성적과 사회에서의 성공 사이에 상관이 있다든지, 흡연이 성생활에 관련이 있다든지 하는 것은 주간지 지면을 최소한 한두 면 차지할 만하다. 그러나 이런 기사의 대부분은 그저 흥밋거리로 읽는 것에 족하다. 이런 상관관계에 지나치게 관심을 갖거나 이를 토대로 인과관계를 가정하는 것은 현명하지 못하다. 우연한 상관은 너무나 흔하기 때문이다.
인과관계의 조건 중 하나가 원인은 결과에 앞서 발생한다는 것이다. 그러나 이는 여러 조건 중 하나일 뿐이며 따라서 이 조건을 만족한다고 해도 인과관계가 있다고 단정 지을 수는 없다. 즉 A가 일어난 다음 B가 일어났다고 해서 A가 B의 원인이라고 결론짓는 것은 명백한 오류이며 이를 전후인과의 오류(post hoc fallacy)라고 한다. 벽에 나란히 걸려 있는 두 개의 시계 A, B가 있다고 하자. 시계 A가 시간을 알리면 이어서 시계 B도 땡땡땡 종을 울린다. 그렇기 때문에 시계 A가 원인으로 작용해 시계 B가 종을 친다고 생각하는 것이 바로 이 오류다. 우리가 흔히 쓰는 표현에 ‘오비이락(烏飛梨落)’, 즉 ‘까마귀 날자 배 떨어진다’라는 말이 있다. 까마귀가 날아간 후에 우연히 배가 떨어졌을 뿐이지 까마귀가 원인이 돼서(배를 쪼아서) 배가 떨어진 것으로 생각하면 안 된다. 시간적 발생에 따라 인과를 해석하려는 오류를 경계해야 한다. 이런 경고에도 불구하고 전후인과의 오류는 종종 일어난다.
‘닭 모가지를 비틀어도 새벽은 온다’라는 말이 있다. 예전에 민주화를 위해 투쟁하던 많은 사람들이 고난을 겪을 때 믿고 의지하며 구호처럼 사용하던 말이다. 닭이 운 다음에 새벽이 오니까 새벽이 오지 않게 하려고 닭 목을 비튼다면 전후인과의 오류를 범하는 것이다. 민주화는 역사적 순리에 따라 이뤄지게 돼 있으므로 민주화 투사를 탄압한다고 민주화를 막을 수 있는 것은 아니다. 그러나 전후인과의 오류가 쉽게 두드러지지 않으면 이런 오류에 설득당하기 쉽다. 한 학자가 흡연을 하는 학생의 대학 성적이 비흡연 학생에 비해 나쁜가를 공들여 조사한 적이 있다. 5) 조사결과 그렇다는 사실이 드러났다. 이 결과는 많은 사람들에게(특히 금연운동가들) 흡연의 단점을 강조하는 데 중요한 근거로 활용됐다. ‘성적을 올리려면 담배를 끊어라’든가, 혹은 조금 과장해서 ‘담배는 지능을 저하시킨다’고 주장했다. 이런 주장을 어떻게 받아들여야 할까? 첫째, 이런 상관관계가 별 의미 없는, 우연한 것일 수 있다. 둘째, 상관관계가 우연한 것이 아니라면 인과관계를 추정하는 데 있어 전후인과의 오류를 범하고 있을 수도 있다. 흡연하기 때문에 성적이 나빠졌다는, 그래서 흡연이 성적 불량의 원인이라고 일방적으로 판단하는 것은 문제다. 반대의 결론도 얼마든지 생각해볼 수 있다. 즉 성적 불량을 고민하면서 담배를 물기 시작했을 수도 있다. 상호작용의 가능성도 있다. 성적 불량이 흡연으로 이어지고, 흡연은 다시 성적 불량을 부르는 구조다. 그 외에도 제3의 요인들이 작용할 수 있다. 예를 들어 사교적인 사람, 외향적인 사람은 흡연을 할 확률이 더 높을 것이며 이런 사람들은 외부 활동에 많이 참여하다 보니 공부를 소홀히 할 수 있다. 이런 경우들을 하나씩 생각해보자.
3) Cook, Thomas D. and Donald T. Campbell(1979), Quasi-Experimentation, Boston: Houghton Mifflin Co., 18쪽.
4) 여기서부터 언급되는 상관관계는 모두 통계적으로 유의한(significant) 상관관계를 말한다.
5) Huff, Darrell(1954), How to Lie with Statistics, New York: Norton & Company Inc., 87쪽.
인과관계의 방향
흡연과 성적 불량에 인과관계가 있다면 흡연이 성적 불량의 원인이 아니라 성적 불량이 흡연의 원인이라고 인과관계를 반대로 해석할 수 있다. 이런 결론은 금연주의자들의 금연 운동에는 도움이 안 되겠지만 충분히 가능한 해석이다. 이처럼 상관관계가 있다고 할 때 흔히 생각하는 것과 반대방향으로 인과관계가 작용할 수도 있다는 것을 알아야 한다. 한 스포츠 평론가가 칼럼에서 승률이 낮은 대학의 미식축구팀은 감독을 너무 쉽게 해고한다고 주장했다. 6) 주장을 뒷받침하기 위해 그는 감독을 자주 바꾼 대학이 한 사람이 오래 감독한 대학보다 승률이 낮다는 통계자료를 제시했다. 이 논리가 맞는 것일까? 감독을 바꾸는 것이 잦은 패배의 원인이 될 수는 없다. 원인과 결과가 반대로 자리 잡은 셈이다. 즉 팀이 지면 그 다음 해 감독을 갈아 치울 확률이 높기 때문에 감독의 해고는 연패(連敗)의 결과라고 봐야 한다.
원인과 결과가 사람들의 생각과 반대방향으로 작용하지만 그것이 쉽게 드러나지 않을 때도 있다. 미국 통계를 보면 대학 졸업 여부와 소득 사이에 상관관계가 높은 것으로 입증돼 있다. 7) 그렇지 않은 유명 인사들의 예외도 적지 않지만 이 상관은 일반적으로 매우 높고 명백한 것으로 인식된다. 사람들은 이 상관관계를 보고 대학을 나온 사람이 소득이 높은 것은 대학을 나왔기 때문이라고 생각한다. 과연 그럴까? 반대로 소득이 높기 때문에 대학을 나왔다고 해석할 수도 있다. 이를 입증해주는 사실도 있다. 미국에서 대학을 가는 학생에는 두 종류가 있다. 머리가 좋거나 집이 부유한 학생이다. 머리가 좋은 학생은 대학에 가지 않더라도 높은 소득을 올릴 수 있는 능력을 가졌을 것이다. 부유한 집안의 학생은 대학에 가든 그렇지 않든 어차피 고소득층에 포함될 것이다.
승용차가 한 대 있는 가정에서 차를 한 대 더 구입한다고 하자. 상식적으로는 차량당 주행거리가 줄어들 것이라고 생각된다. 그러나 실제로는 그렇지 않다. 미국의 통계를 보면 가정의 차량 보유대수가 늘면 차량당 평균주행거리도 증가하는 것으로 나타난다. 8) 사람들은 이 상관관계를 ‘차량보유대수가 늘어날수록 차를 몰고 싶은 마음이 증가한다’고 해석한다. 하지만 실제로는 그 반대로 해석하는 편이 자연스럽다. 즉 운전을 많이 하는 가정에서 차량 사용의 필요성이 크고 그래서 차를 한 대 더 구입하는 것이다.
이혼이 많이 늘어서 이제는 결혼하는 3쌍 중 한 쌍이 이혼을 한다. 그런데 이혼을 하면 8∼10년 일찍 죽는다는 조사 결과가 방송과 신문의 지면을 장식하면서 화제가 된 적이 있다. 1999년 삼육대 사회복지학과의 천성수 교수가 대한보건협회 학술지에 발표한 논문에 따르면 이혼 남녀의 평균수명이 배우자가 있는 남녀보다 8∼10년 짧은 것으로 조사됐다. 이 연구는 1995년 인구센서스 자료, 인구동태 자료, 사망원인, 통계연보, 생명표 등을 자료로 했다. 분석한 결과를 보면 남성의 평균수명은 배우자가 있는 경우 75세, 이혼자 65세, 여성의 평균수명은 배우자가 있는 경우 79세, 이혼자 71세로 이혼 남녀의 평균수명이 남자는 10년, 여자는 8년이 짧았다. 논문을 쓴 천성수 교수는 이 같은 평균수명 차이의 원인에 대해 ‘이혼자는 심리적 갈등을 해소할 기회가 적기 때문’이라고 분석했다.
하지만 평균수명 차이를 다른 각도에서 해석할 수도 있다. 이 논문은 사망한 사람들을 배우자가 있는 사람과 이혼한 사람으로 나눠서 평균수명을 분석했다. 조사대상자(사망자)의 평균수명을 70세로 보고 이 사람들의 결혼 연령을 평균 30세로 본다면 이들은 40년 전, 그러니까 1950년대 후반에 결혼을 했을 것이다. 이혼은 결혼 후 10년 안쪽에서 많이 이뤄지니까 이혼한 시기는 대개 1960년대 중반 정도라고 볼 수 있다. 그 시절을 한번 생각해 보자. 그 시절엔 이혼이 그리 많지 않았다. 이혼하면 난리가 나는 것처럼 생각되던 시절이었고 웬만한 일에도 여자가 삼종지도의 인내력을 발휘하며 참던 시절이었다. 그 시절에 실제로 이혼을 했다는 것은 결혼을 지속할 수 없는 어떤 중대한 이유가 있었을 것으로 생각할 수 있다. 그리고 그 이유 중에는 배우자의 건강상 문제도 중요한 비중을 차지했을 것이다. 그렇다면 논문 결과의 해석을 반대로 할 수도 있다. 이혼을 해서 일찍 사망한 것이 아니라 원래 건강상의 문제로 이혼을 했고 그래서 일찍 사망한 것일 수도 있다. 이렇게 추정하는 것이 이혼 당시의 관습적 상황을 고려할 때 더욱 설득력이 있지 않을까?
상관관계가 있지만 어느 것이 원인이고 어느 것이 결과인지 명백하지 않을 때가 있다. 원인과 결과가 시간에 따라 뒤바뀌기도 하고 양쪽이 동시에 원인이면서 결과일 수도 있다. 광고와 매출액 사이에는 상관관계가 있다. 흔히 사람들은 광고를 많이 하면 매출액이 증가한다고 생각한다. 그러나 두 변수는 서로 상호작용을 해서 원인도 되고 결과도 된다고 해석하는 것이 현실에 더 가깝다. 즉 광고가 매출액을 증가시키면 다시 매출액 증가로 인해 광고비를 더 지출할 수 있는 여유가 생기고 광고를 더 많이 한다. 따라서 초기에는 광고가 매출액 증가의 원인일 수 있지만 나중에는 매출액 증가가 광고 증가의 원인이 되는 것이다. 개인소득과 개인이 보유한 주식의 수 사이에는 상관관계가 있다. 이 상관관계도 원인과 결과가 상호작용을 하는 것으로 해석해야 한다. 즉 소득이 많을수록 주식을 많이 사고, 주식을 많이 사면 배당 등으로 인해 소득이 늘어날 것이다. 이런 상호작용이 연속적으로 일어나므로 소득이나 주식 보유 수는 원인도 되고 결과도 될 수 있다.
남태평양에 있는 뉴 헤브리디스(New Hebrides) 섬 주민들은 몸의 이가 건강의 원인이라고 믿고, 건강하려면 몸에 이를 많이 지녀야 한다고 생각했다. 9) 건강한 사람에게는 이가 있지만 환자에게는 이가 없는 경우가 많다는 과거 수세기에 걸친 경험과 관찰을 토대로 이런 결론을 내린 것이다. 그러나 나중에 판명된 바에 따르면 이 섬에는 이가 득실거려서 대부분의 사람들이 몸에 이를 지니고 있었다. 그러다 이가 옮기는 열병에 걸리면 체온이 올라가서 이가 살기 어려운 조건이 되므로 이가 환자의 몸에서 달아난다. 즉 건강하면 이가 꼬이고, 이가 열병을 옮기고, 열병이 이를 쫓아내고, 이가 없어지면 열병이 낫고, 건강해지면 다시 이가 꼬이는 순환이 반복되므로 원인과 결과가 뒤죽박죽 엉킨다. 뉴 헤브리디스 섬의 주민들보다 불충분한 정보를 갖고 잘못된 인과관계를 추정하는 일이 우리 생활 속에서도 종종 일어난다. 심지어는 전문성이 있는 학술연구에서도 이런 일이 벌어진다. 명확한 상관관계가 존재하더라도 인과관계를 추정하는 것은 이처럼 쉽지 않은 일이다.
6) Hooke, Robert(1983), How to Tell the Liars from the Statisticians, Marcel Dekken Inc., 132쪽.
7) Huff, Darrell, 앞의 책, 93쪽.
8) Campbell, Stephen(1974), Flaws and Fallacies in Statistical Thinking, New Jersey: Prentice Hall Inc., 170쪽.
9) Huff, Darrell, 앞의 책, 98쪽.
원인은 다른 곳에
두 변수 사이에 상관관계가 있더라도 원인은 숨겨진 다른 곳에 있는 경우도 있다. 이런 경우에는 상관관계로부터 상식과 동떨어진 원인을 추정하기 쉽다. 실제로는 다른 요인이 원인이고 상관성을 보이는 두 변수는 단지 결과로서 나타나는 현상일 뿐인 경우다. 대표적인 사례가 한 도시에서 아이스크림 판매량이 늘면 익사사고율이 높아지는 관계다. 아이스크림을 먹어서 익사자가 증가하는 것은 아니고 그 반대는 더더욱 아니다. 사실은 폭염 때문에 아이스크림 판매와 익사자가 증가하는 것이다. 다른 예를 들어보자. 교회 수가 늘어나면 범죄 발생률이 높아진다. 교회가 범죄 증가의 원인이라는 말인가? 진짜 원인은 인구 증가에 있다. 인구가 늘면 교회가 많아지고 범죄도 증가하는 것이다. 마찬가지로 경찰관 수가 증가하면 범죄가 늘지만 이것 역시 인구가 증가할 때 나타나는 현상이다. 라인 강변에 있는 프랑스 도시 스트라스부르그(Strasburg)에서는 황새의 둥지 수와 출생률 사이의 상관관계가 높은 것으로 나타났다. 10) 그렇다고 이 상관관계가 ‘황새가 어린아이를 물어온다’는 옛 전설을 뒷받침해주는 것은 아니다. 단지 인구가 증가하면 출생률이 상승하고, 주택이 많아지므로 황새가 둥지를 틀 곳도 많아지는 것뿐이다.
앞에서 남자아이들의 지능과 바지 길이 사이에 아주 높은 상관관계가 존재한다는 사례를 언급했다. 이와 비슷하게 아이들 신발의 크기와 지능도 높은 상관을 나타낸다. 하지만 이것 역시 다른 원인이 작용했을 가능성이 높다. 나이가 들수록 아이들의 신발은 커지고 바지는 길어진다. 이와 비례해서 지능도 높을 가능성이 높다. 차를 마시는 사람들은 폐암에 걸릴 확률이 낮다고 한다. 차의 어떤 성품이 폐암에 걸리는 것을 막아주는 것은 아니다. 단지 차를 마시는 사람들은 담배를 덜 피우기 때문에 폐암의 위험에 덜 노출될 뿐이다.
미국 메사추세츠 장로교 목사의 월급과 쿠바 하바나의 럼(rum)주 가격 사이에는 높은 상관관계가 있다. 목사들이 술 무역으로 돈을 벌고 있다고 생각하면 어리석은 일이다. 세월의 흐름에 따라 거의 모든 물가와 월급은 올라가기 마련이다. 공립 도서관 수와 마약 사범도 상관관계를 갖지만 이들 역시 시간의 흐름에 따라 증가한다. 우리나라의 냉장고 보급률과 위암 환자의 수 사이에도 큰 상관관계가 있다. 냉장고에서 보관된 음식을 먹는 것이 위암의 원인이 된다고 생각한다면 역시 어리석은 일이다. 소득이 올라가면서 냉장고 보급이 늘고, 평균수명이 높아지고, 의료서비스가 확산되면서 당국에 보고되는 위암 환자의 수가 증가하는 것이다. 역시 시간의 흐름이라는 제3의 요인이 작용한 결과다.
한 의학논문에서 우유를 마시면 암에 걸릴 확률이 높아진다는 놀라운 결과를 발표한 적이 있다. 11) 우유가 많이 생산되고 소비되는 미국 동북부와 중부, 남부의 여러 주, 스위스에서는 암이 놀랄 만큼 자주 발생하는데 우유를 마시지 않는 스리랑카에서는 암이 거의 발생하지 않는다는 것이 이 논문의 근거자료였다. 또한 우유를 많이 마시는 영국 여자들이 거의 마시지 않는 일본 여자들보다 18배나 더 많이 암에 걸린다는 사실이 증거에 추가됐다. 그러나 조금만 파헤쳐 보면 이런 결과는 다른 요인으로 설명할 수 있다는 것을 알 수 있다. 암이란 중년 이후에 걸리기 쉬운 병이다. 처음 예를 든 미국 여러 주나 스위스는 평균수명이 길어서 노년층이 많은 공통점을 갖고 있었다. 조사 당시 영국 여자들의 평균수명도 일본 여자들보다 12년이나 길었다. 평균수명이 길면 당연히 암에 걸리는 사람 수가 많아질 수밖에 없다.
상관관계가 인과관계를 명백히 나타내더라도 그것을 해석할 때는 주의해야 한다. 흡연자가 비흡연자에 비해 폐암에 걸릴 확률이 높다는 것은 사실이다. 즉 흡연이 폐암을 유발할 가능성이 높다. 그러나 문제는 이런 사실을 너무 단순화해서 성급화게 일반화하는 것이다. 다시 말해 흡연이 폐암 발생의 유일한 원인인 것처럼 해석해서는 안 된다는 것이다. 폐암 환자 중에는 흡연을 전혀 하지 않는 사람이 15%나 된다는 사실에 비춰볼 때, 폐암의 원인에는 여러 가지 다른 중요한 원인이 있을 수 있다. 미국 암협회 대변인이 폐암으로 인한 사망자 수의 감소는 담배 소비의 감소와 관계가 있다고 발표한 적이 있다. 12) 그는 금연이 폐암으로 인한 사망 감소의 유일한 원인인 것처럼 말했다. 그러나 담배 소비 감소 이외에도 다른 중요한 원인들이 폐암으로 인한 사망 감소에 작용했을 수 있다. 공장의 공기오염물질 배출 규제, 자동차 배기가스 규제, 공기여과기를 이용한 사무실과 집에서의 공기 정화, 건강에 대해 높아진 관심과 정기적인 건강 진단으로 인한 폐암 조기 발견, 폐암 치료방법의 발달 등도 폐암으로 인한 사망을 줄이는 데 한몫을 담당했을 것이다.
성급한 단순화의 오류 중에 가장 대표적인 것은 ‘사용 전’ ‘사용 후’의 사진을 보여주는 광고다. 신문이나 잡지에 흔히 등장하는 비만치료에 대한 광고에는 사용 전의 뚱뚱한 모습과 사용 후의 날렵한 모습이 확연하게 차이를 보인다. 두 사진의 인물이 동일한 사람인지 확인하기도 어렵고 대부분 사용 전 사진은 흐리기 일쑤다. 이런 광고는 변화의 유일한 원인이 특정 치료제(또는 치료방법)라고 주장한다. 사진에 등장한 사람이 이 치료제 외에 살을 빼기 위해 동시에 행한 여러 가지 노력(식사조절, 운동 등)의 공(功)은 언급하지 않는다. 이런 왜곡적인 주장은 광고뿐 아니라 정치인의 주장이나 사람들 사이의 대화에도 흔히 나타나므로 그것을 있는 그대로 받아들이지 않도록 주의를 기울여야 한다.
사실 인과관계가 성립하기 위해서는 기본적으로 엄격한 조건을 만족해야 한다. 그러나 이런 조건들이 만족됐다고 하더라도 인과관계의 존재가 입증됐다고는 할 수 없다. 연구자의 경험적인 판단과 다른 데이터로부터 축적된 유사한 결과가 이 인과관계를 확인하는 데 추가적으로 중요한 역할을 차지한다.
10) Campbell, Stephen, 앞의 책, 173쪽.
11) Huff, Darrell, 앞의 책, 95쪽.
12) Mauro, John(1992), Statistical Deception at Work, New Jersey: LEA, Inc., 75쪽.
김진호 서울과학종합대학원 빅데이터 MBA 주임교수
728×90
1. 상관관계 분석의 필요성
상관관계(correlation) 분석은 연구 대상인 변수들간의 관련성을 분석하기 위하여 사용됩니다. 즉 한 변수와 다른 변수와 어느 정도 관련성을 가지고 같이 변화하는지의 정도를 분석하는 목적으로 사용됩니다. 예를 들어서 광고량과 판매량을 각각 비율척도로 입력하여 상관관계 분석을 하거나, 광고량(광고비로 입력한 비율척도)과 제품에 대한 만족도(5점 등간 척도)를 대상으로 상관관계 분석이 이루어질 수 있습니다. 이처럼 두개 변수간의 상관관계를 나타내는 것을 ‘단순상관관계’라고 합니다. 단순상관관계를 분석하는 것만으로도 관리자는 효과적인 의사결정에 필요한 기본적 자료를 얻을 수 있습니다. 일예로 만일 광고량과 제품에 대한 만족도간에 별다른 관련성이 없다면, 고객의 불만이 증가할 때 광고를 늘리는 것은 그다지 현명한 전략이 아닐 것입니다.
상관관계의 분석에 사용되는 변수들은 반드시 등간척도나 비율척도처럼 연속성을 가지고 있는 변수들을 가지고 분석이 이루어집니다. 즉 자동차의 모델명(명목척도)과 연비(비율척도) 간의 상관관계는 이루어질 수 없습니다. 그 이유는 명목 척도는 평균이나 분산을 가질 수 없으므로, 통계적 추정이 필요한 상관관계가 불가능하기 때문입니다.
2. 상관관계 분석의 이해
변수들간의 관련성이 높다 혹은 낮다는 것은 어떻게 측정이 가능할까요? 변수들간의 상호관련성, 즉 상관은 특정 변수의 분산이 다른 변수의 분산과 같이 변화하는 정도에 따라 결정됩니다. 이처럼 같이 같이 공명하며 변동하는 분산을 공분산이라고 합니다.
아래 그림에서 보듯, 같이 변동하는 정도가 적을수록 상관관계는 낮아지면, 같이 변동하는 정도가 클수록 상관관계는 높아집니다. 이때 상관관계의 정도를 나타내주는 것이 상관계수인데, 전혀 상관이 없을 경우의 상관계수는 0이지만, 완전히 변동하는 부분이 일치하는 경우의 상관계수는 -1 혹은 1입니다. 즉 상관계수는 -1 ~ 1 사이의 값을 같습니다.
제시된 산포도를 기준으로 가상적 예를 살펴보면, 학생의 학습시간에 따라 성적이 정확하게 비례하여 증가하는 경우 +1의 완전한 상관관계를 보이고 있지만, 시외버스의 운행 간격과 성적은 상관관계가 거의 존재하지 않는 0의 상관관계를 보입니다. 반면에 학생의 온라인 게임을 즐기는 시간에 비례하여 성적이 정확하게 감소하는 경우 -1의 상관관계를 보이고 있습니다.
그러나 현실 세계에서는 이렇게 +1 혹은 -1의 완전한 상관관계를 보이거나 상관계수가 0인 전혀 상관이 없는 관계는 그렇게 많치 않습니다. 그보다 대부분의 경우는 다소의 상관관계를 가지고 있는 것이 보통입니다. 아래의 가상적 예에서 보듯 대부분의 상관관계는 어느 정도의 강도를 가지고 움직이는 것이 보통입니다. 상관계수의 절대값이 0.2이하면 보통 상관관계가 무시할 수 있을 정도로 미약하다고 판단하며, 02 ~ 0.6 정도면 어느정도 상관관계가 있다고 인정됩니다. 그리고 0.6 이상일 경우 매우 강한 상관관계가 있는 것으로 인정됩니다.
또한 상관계수의 값을 제곱한 것을 ‘결정 계수’라고하며, 이 결정 계수 한 변수가 다른 변수의 변화를 설명할 수 있는 설명력을 의미합니다.
3. 상관관계 계산의 절차
상관관계 계산의 기초적 절차로서 우선 ‘공분산’의 개념을 이해하여야 합니다. 공분산이란 확률변수 X의 증감에 따라 또 다른 확률변수 Y가 증감하는 정도로서, 의 기대값이며 기호로는 cov(X, Y)로 표시합니다. 그러나 위 식에서 보듯, 공분산은 X와 Y의 단위가 커지면 자연스럽게 같이 증대하게 되므로, 공분산을을 표준화할 필요가 있습니다. 이 공분산을 표준화한 것이 상관계수입니다. 즉, 상관계수는 다음과 같으며 -1 ~ 1 사이의값을 갖게 됩니다.
: 1) x와 y의 공분산, 2) x의 표준편차, 3) y의 표준편차
이를 보다 잘 이해하기 위하여 실제 사례를 가지고 같이 상관계수를 구해보도록 하겠습니다.
[사례]
스마트폰을 제작하는 S사는 최근 신제품을 개발하면서 스마트폰 가격이 커짐에 따라 더 많은 고객들이 좋은 평가를 내리는 것을 알게 되었습니다. 이런 경험을 통해서 막연하지만 스마트폰의 높은 가격 이미지가 판매량에 좋은 영향을 주고 있는 것이라고 생각을 하게 되었습니다. 이런 관계를 검증하기 위해서 가격 판매량간의 과거 데이타를 분석하여 그 관계를 파악하고자 합니다.
a. 상관계수를 구하기 위해서는가격(X)과 판매량(Y) 변수의 평균 및 합계를 구해야 합니다. 그 결과는 다음과 같습니다.
b. 구해진 각 변수의 평균을 활용하여 1), 2), 3), 4)를 구합니다. 즉 각 관측치에서 각 변수의 평균을 차감한 값을 활용하여 (1)과 (3)을 각각 구한뒤, 이 값들을 제곱하여 (2)와 (4)를 구한 후 다시 (5)를 구하십시요. 이때 2)와 4)는 곧 가격(X)과 판매량(Y) 각각의 표준편차이며, 5)는 이 두개 변수의 공분산입니다.
c. 상관계수 구하기
이제 가격(X)과 판매량(Y) 각각의 표준편차를 알고 있으며, 이들 변수간의 공분산을 알게 되었습니다. 이를 활용하면 바로 상관계수를 구할 수 있습니다.
즉,
= 0.903의 높은 상관관계가 있는 것으로 나타났습니다. 이 결과의 의미는 스마트폰의 가격과 판매량간에 매우 강력한 상관관계가 존재한다는 것을 의미합니다.
728×90
4. 분석을 위한 설문과 데이타
이처럼 직접 계산을 하여서 상관계수를 구하는 것도 가능하나, SPSS는 이런 중간 단계를 생략하고 바로 상관 관계를 구할 수 있는 편리한 기능을 제공합니다. 즉, 통계적인 지식이 없다고 하더라도 등간척도와 비율척도를 활용하여 매우 간단하게 상관관계를 구할 수 있습니다.
우선 이를 실습하기 위하여 어떤 문항들을 사용할지 실습용 설문지를 참조해 보도록 하겠습니다. 본 분석에 사용될 설문 문항은 설문 22페이지의 가족의 숫자를 묻는 4-9)번 문항과 집에서 보유한 TV의 사이즈를 묻는 10번 문항을 사용하도록 하겠습니다. 즉, 가족이 많으면 많을수록 더 편리하게 보기 위하여 더 큰 사이즈의 TV를 구하고 싶어할 것이라는 가설을 검증해보고자 합니다.
이 두개의 문항은 모두 비율척도로서 상관관계의 분석에 적합한 것으로 판단되었습니다. 추가로, 소득수준 역시 TV의 크기에 영향을 미칠 것이라고 가설을 세울 수 있습니다. 당연히 소득이 많을수록 소비지출이 많으므로 누구나 생각해볼만한 가설입니다. 그러나 소득 수준을 물어보는 22페이지의 문항 7을 살펴보니, 명목척도로 물어보고 있습니다. 충분히 소득수준과 TV의 크기간에는 유의한 상관관계가 실제로 존재하더라도, 조사자가 소득을 이처럼 명목 척도로 물어보았다면 상관관계를 진행할 수 없습니다. 따라서 어떤 연구 방법을 사용할지 여부는 설문지 작성 단계에서부터 고민되고 결정될 필요가 있음을 알 수 있습니다.
만일 소득 수준을 응답자가 직접 넣도록 하는 비율형 척도를 사용하였다면, 이 두변수간의 상관관계 분석은 가능했을 것입니다. 즉, 아래와 같이 물어보았다면 당연히 상관관계 분석이 가능합니다.
5. 상관관계 분석 및 결과
이제 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 가족 수와 TV의 크기와 관련된 변수들을 확인하십시요. 단순상관관계 분석을 위해서는 최소한 2개 이상의 변수가 필요합니다. 만일 변수가 2개 이상인 경우에는 자동적으로 모든 변수의 쌍대 조합을 이용하여 모든 가능한 상관관계 변수를 자동으로 분석해줄 것입니다.
1) 상관분석 메뉴의 실행
상관관계 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 상관분석(C) -> 이변량 상관계수(B)를 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 상관분석 대화상자가 나타납니다.
2) 분석 대상 변수의 선택
아래 그림과 같이 대화상자에서 분석할 변수인 ‘가족 수(변수명: s12)’와 ‘TV의 크기(변수명: s19)’를 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.
대화상자를 보면은 Pearson 상관관계 분석으로 지정되어 있는 것을 볼 수 있습니다. 피어슨 상관관계는 바로 위에서 공분산과 표준편차를 이용하여서 구하였던 상관계수와 동일하기 때문에 이를 그대로 놓아두시고 그대로 진행합니다.
3) 옵션의 조정
: 바로 ‘확인’ 버튼을 누르는 것만으로도 성공적으로 상관관계 분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다.
먼저 ‘옵션’ 버튼을 클릭해보시기 바랍니다. 평균과 표준편차, 공분산등을 추가로 선택할 수 있으며, 기본적으로 결측값이 상관계수 계산시 제외되도록 되어 있습니다. 추가로 필요한 부분이 있으면 선택하신 후 다음 단계로 진행합니다.
4) 분석의 시행 및 결과
이제 상관관계 분석을 시행해보도록 하겠습니다. 도출된 상관계수 표를 보면 크게 상관계수, 유의확율, 그리고 응답자의 수(N)라는 3가지 정보를 주고 있습니다. 우선 상관계수는 0.207로서, 약한 상관관계가 있음을 알 수 있습니다. 그 다음 정보는 유의확율입니다. 유의확률은 보통 p값, sig 등 다양한 형태로 표시되기도 하는데, 가설 검증을 통하여 상관계수가 통계적으로 유의한가에 대한 정보이며, 보통 그 기준은 유의확률이 0.05보다 작은 경우 통계적으로 유의하다고 판단합니다. 분석 결과 유의 확율은 0.000으로서 통계적 유의성이 확보되었습니다.
: 청주대학교 이 원준 ([email protected])
728×90