빅데이터를 지배하는 통계의 힘 활용 서평

by Investor 우기ya 2017. 2. 16. 14:26

728x90

빅데이터는 IT업계의 화두입니다. 메모리 가격의 하락과 더불어서 데이터망의 속도가 빨라짐에 따라 이전과 상상할 수 없을만큼의 데이터가 쌓이고 또 처리가 가능하게 됨에 따라 대두된 용어입니다. 이세돌과의 바둑에서 승리를 거두었던 알파고와 촛불집회의 정확한 인원수를 계측하는 것등은 모두 바로 이 빅데이터가 바탕이 되어 가능했습니다.

이러한 빅데이터를 처리하는 기법은 모두 ‘통계’를 기본으로 합니다. 오늘은 빅데이터를 다룰 수 있는 기본 통계의 지식에 대해서 말해 주는 도서 ‘빅데이터 통계 실무’에 대해서 알아보겠습니다.

통계학의 전제

모든 통계학의 전제는 샘플링입니다. 표본을 추출하고 표본집단을 상정하여 의미 있는 신뢰구간안에 오차범위를 추정하는 것이 모든 통계의 기본입니다. 바로 부분으로 전체를 추정하는 것이죠. 부분으로 전체를 추정하는 것이 가능한 이유가 있습니다. 표본을 임의적으로 추출한다면, 모집단을 모두 전수조사 하는 것과 같은 의미 집단을 가지게 되고 이것을 가지고 통계를 추정하더라도 오차범위내에서 모집단과의 차이가 없다는 것이죠.

바로 여기서 빅데이터의 약점 아닌 약점이 드러납니다. 통계에 있어서 전수조사 즉, 모든 데이터를 다량으로 처리하는 것은 그렇게 큰 의미를 가지는 것이 아니라는 것입니다.

인과관계 도출 – 교차분할 분석

샘플링을 통해서 우리는 인과관계를 도출 해낼 수 있습니다. 수학의 방정식처럼 무언가 요인을 주는 X가 Y와 어떤 관계가 있는지 알아보는 것이죠. 예를 들어서 A와 B 집단을 나눈 뒤 다른 요인들을 통제하고 A집단에는 TV 광고 시청을 그리고 B 집단에는 TV 광고 시청이 없이 실험을 합니다. TV 광고시청이후 인터넷 쇼핑몰 평균 구매액을 추정 조사하여 만약, A집단이 B 집단보다 평균 구매액이 많다면, 우리는 TV광고 시청이 인터넷 쇼핑몰 구매에 영향을 준다는 잠정적 결론을 내릴 수 있다는 것입니다. 이를 교차분할 분석, Cross Section 분석이라고 합니다.

관계 도출의 한계와 보완점

허나 이러한 관계 도출에는 근본적인 한계를 지니고 있습니다. 바로 표본조사에는 오차가 존재한다는 것입니다. 이를 보완하기 위해 카이제곱검정을 실시하게 되고 이를 P값으로 나타냅니다. 이 P값이 0.05보다 낮을 때 우리는 통계적으로 유의미하다고 결론을 내립니다. 바로 표본조사에 의한 약점을 보완하는 것이죠.

임의화를 통한 요인 통제

이전의 A,B 그룹의 인과관계의 조사에서 보았듯이, A,B 그룹을 나누어서 실험했더라도 다른 요인이 영향을 미칠 수 있습니다. A 과 B 그룹의 연령대가 다르다는 등의 여타 요인은 인과관계 분석에서 오류를 내릴 수 있는 여지를 줍니다. 이를 보완하고자 우리는 표본을 모집할 때 있어서 다른 모든 요인이 제거된 랜덤 추출을 합니다. 즉, 어떻게 될지 모르고 뽑은 것이니 A 집단과 B 집단에 모인 사람은 확률적으로 같은 집단이 되는 것이죠. 허나, 실제 사회과학 실험에서는 완벽한 임의화가 없기 때문에 조사자는 항상 주의해야 합니다.