컨설턴트 코너맨의 블로그
데이터 분석에서 로그를 쓰는 이유: 평균의 함정과 성장률의 착각 본문
정책 관련 보고서를 보면 로그값을 많이 쓴다. 근데 보다 보니 이런 생각이 들었다. “정책 전 평균 매출이 5,000만 원이고, 정책 후 평균 매출이 5,300만 원이면 (5,300/5,000−1)×100 해서 6%라고 하면 되지 않나? 그런데 왜 다들 로그를 쓰는 걸까?”
그리고 사실, 한 번의 전후 비교만 놓고 보면 그 계산은 틀리지도 않다. 문제는 우리가 실제로 하는 분석이 거의 항상 “그 한 번”이 아니라는 데서 시작된다. 처음 이 질문을 던질 때 헷갈리는 핵심은 대부분 이거다. ‘평균 매출 변화율’과 ‘점포들의 평균 변화율’이 같은 말처럼 들리는데, 실제로는 전혀 다른 계산이라는 점이다. 말은 비슷하지만, 평균을 내는 순서가 다르고, 그 차이가 결과를 완전히 바꾼다.
먼저 우리가 직관적으로 떠올리는 방식은 이렇다. 정책 전 전체 점포의 평균 매출을 구하고, 정책 후 전체 점포의 평균 매출을 구한 뒤, 그 평균이 얼마나 늘었는지를 계산한다. 이 방식은 간단하고 설명하기도 쉽다. 하지만 이 계산은 본질적으로 “평균 매출이 얼마나 바뀌었는가”를 묻는 것이지, “점포들이 평균적으로 얼마나 성장했는가”를 묻는 계산은 아니다.
이 차이가 왜 중요한지 작은 예를 들어보자. 점포가 두 개 있다고 가정해보자. 하나는 매출이 매우 큰 점포, 다른 하나는 아주 작은 점포다. 정책 전에는 큰 점포가 1억 원, 작은 점포가 1천만 원의 매출을 올리고 있었고, 정책 후에는 큰 점포가 1억 1천만 원, 작은 점포가 1천2백만 원이 되었다고 하자. 큰 점포는 10% 성장했고, 작은 점포는 20% 성장했다.
이때 정책 전후 평균 매출을 계산하면, 평균은 거의 큰 점포의 움직임을 따라간다. 결과적으로 “평균 매출은 약 2% 남짓 증가했다”는 결론이 나온다. 하지만 이 결과를 보고 “정책 효과가 미미했다”고 말하는 것이 과연 맞을까? 작은 점포 입장에서는 성장률이 두 배였는데도 말이다.
여기서 우리가 정말 알고 싶은 질문은 사실 이것에 가깝다.
“각 점포가 얼마나 성장했는지를 기준으로 볼 때, 전체적으로 어떤 변화가 있었는가?”
즉, 점포 하나하나의 변화율을 동등하게 놓고 평균을 내고 싶은 것이다. 하지만 이걸 그대로 퍼센트로 계산해 평균을 내기 시작하면 또 다른 문제가 생긴다. 매출이 아주 작은 점포는 조금만 늘어나도 변화율이 폭발적으로 커지고, 매출이 거의 0에 가까운 경우에는 변화율이 아예 정의되지 않는다. 이상치 하나가 전체 평균을 망가뜨리기 쉬운 구조다. 실무 데이터에서는 이런 일이 매우 흔하다.
여기서 로그가 등장한다. 로그는 이 문제를 해결하기 위한 수학적 장치이기 이전에, 평균을 어떤 기준으로 낼 것인가에 대한 선택이다. 로그를 취하면 점포별 전후 변화는 ‘비율의 차이’가 아니라 ‘비율의 로그 차이’가 된다. 이 값은 덧셈이 가능해지고, 평균을 내도 폭발하지 않는다. 무엇보다 중요한 점은, 이 평균이 “원화 규모가 큰 점포가 더 큰 영향력을 갖는 평균”이 아니라, “각 점포의 성장률을 기준으로 한 평균”에 가까워진다는 것이다.
엄밀히 말하면 로그 평균은 ‘점포별 퍼센트 변화율의 단순 평균’과 완전히 같지는 않다. 대신 로그 평균은 기하평균에 해당하는 변화를 보여준다. 이는 성장률이나 비율처럼 곱셈적으로 움직이는 현상을 대표하기에 훨씬 적합한 평균이다. 그래서 매출, 소득, 거래금액처럼 분포가 심하게 찌그러진 데이터에서는 로그가 훨씬 안정적인 결과를 준다.
다시 처음 질문으로 돌아가 보자.
“그냥 (5,300/5,000−1)×100 하면 6%인데 왜 로그를 쓰나?”
이 질문에 대한 가장 정확한 대답은 이렇다. 그 계산은 ‘한 번의 요약 설명’으로는 충분하지만, ‘분석의 본체’로는 부족하다.정책 평가나 상권 분석은 거의 항상 여러 점포, 여러 지역, 여러 시점을 동시에 다룬다. 대조군이 들어가고, 회귀식이나 이중차분 같은 구조가 붙는다. 이 구조 안에서는 평균 매출의 변화율을 그대로 비교하는 방식이 깨진다. 반면 로그를 사용하면, “정책으로 인해 성장률이 얼마나 달라졌는가”라는 질문을 일관되게 유지할 수 있다.
그래서 실무에서 가장 좋은 방식은 둘 중 하나를 고르는 것이 아니다. 분석은 로그로 한다. 로그는 여러 개체와 여러 시점을 안정적으로 묶어준다. 그리고 설명은 퍼센트와 원화로 한다. 로그로 얻은 결과를 다시 “약 몇 퍼센트 변화”, “점포당 월 얼마 수준”으로 번역한다. 이때 처음에 계산했던 (5,300/5,000−1)×100 같은 숫자는 설명의 언어로서 다시 등장한다.
결국 로그를 쓰느냐 마느냐의 문제는 계산의 문제가 아니라 관점의 문제다. 평균 매출이 얼마나 변했는지를 볼 것인지, 아니면 개별 점포들이 평균적으로 얼마나 성장했는지를 볼 것인지의 선택이다. 로그는 그 선택을 가능하게 해주는 도구다. 이걸 이해하는 순간, 로그는 더 이상 어렵지 않다.
로그는 숫자를 복잡하게 만드는 장치가 아니라, 현실을 덜 왜곡해서 보게 만드는 장치다. 그리고 바로 그 지점에서, “왜 굳이 로그를 쓰는가”라는 질문은 자연스럽게 사라진다.
'Data & Statistics' 카테고리의 다른 글
| 시간을 넘나드는 탐정 놀이: 이중차분법으로 정치 현상의 진실을 찾아서 (0) | 2025.10.23 |
|---|---|
| 인과추론, 지역화폐 정책 효과를 제대로 평가하려면 꼭 알아야 합니다 (0) | 2025.04.23 |