헤매어도 한 걸음씩
가짜연구소 인과추론팀 2025 Meetup for Product & Data 후기 본문
지난 3월 29일, 한빛미디어에서 열린 '가짜연구소 인과추론팀 2025 Meetup for Product & Data'에 다녀왔습니다.
요즘 인과추론-데이터분석에 관심이 많아 기대하고 갔던 행사인데요, 세션별로 주제가 명확했고 또 실무 사례를 통해 발표자분들이 실제 업무에서 인과추론을 어떻게 바라보고 활용하는지, 그 과정에서의 고민과 각자의 관점을 들을 수 있어 의미 있는 시간이었습니다. 밋업에선 데이터, 인과추론(Causal Inference) 을 주제로 총 5개의 세미나가 진행됐고, 그 중 개인적으로 기억에 남는 2개 세션을 간단히 정리했습니다.
1. Causal Inference with CausalML
발표 자료 : 🔗
첫 번째 세션은 하이브IM 박이삭님의 발표로, 게임업계에서의 인과추론 적용 사례와 Python 패키지인 CausalML을 어떻게 활용할 수 있는지 소개해주셨습니다. 박이삭님은 데이터 분석 경력 8년차로, 하이브IM에서 게임 유저 데이터를 분석하며 Causal Inference(인과추론) 을 실무에 적용해오셨다고 합니다. 세미나를 듣고 정리한 주요 키워드는 다음과 같습니다.
1.1 RCT(무작위 실험)의 중요성
데이터 분석에서 흔히 마주치는 연관관계(Correlation) 와 인과관계(Causation) 의 차이를 강조하셨습니다. 그동안 두 개념이 한 끗 차이라고 막연히 생각해왔는데, 그 한 끗이 큰 차이를 만들어낸다는 점을 다시금 깨달을 수 있었던 세션이었습니다.
관측 데이터에서는 다양한 편향(Bias) 과 혼란 변수(Confounding) 가 개입되어 있기 때문에, 단순히 두 변수 간의 연관성이 있다고 해서 인과관계로 해석하기 어렵습니다. 해서 이를 해결하기 위해 사용하는 방법이 무작위 비교 실험(RCT, Randomized Controlled Trial) 입니다.
RCT의 핵심은 '처치(Treatment)'와 '비처치(Control)' 그룹을 무작위로 나누는 것인데, 이 과정에서 선택 편향(Selection Bias) 을 최소화하고, 외부 변수의 영향을 통제할 수 있습니다. 즉, bias가 제거된 환경을 인위적으로 만들어 인과관계를 검증할 수 있는 실험 설계입니다.
이런 RCT 실험의 원리를 설명하면서, "연관관계 데이터에 존재하는 bias를 통제하거나 제거해야 인과관계로 해석할 수 있다" 고 하셨습니다. 그리고 실제 비즈니스에서는 무작위 실험을 수행하기 어려운 경우가 많기 때문에, CausalML 같은 도구를 활용해 관측 데이터에서도 RCT와 유사한 조건을 만들고 인과효과를 추정하는 방법을 소개해주셨습니다.
1.2 CausalML 패키지 소개 및 차별점
인과추론 실험을 위한 Python 라이브러리인 CausalML 패키지를 소개해주셨습니다. 좀 더 보편적으로 사용되는 sklearn과 비교해 CausalML만의 특징을 알려주셨는데요, 추가로 찾아본 내용과 함께 아래에 정리했습니다.
- T-Learner, X-Learner 등 인과추론 전용 러너(Runner) 구조 제공
- 사이킷런은 일반적인 예측 모델 학습에 초점이 맞춰져 있지만, CausalML은 처치(Treatment) 와 결과(Outcome) 사이의 인과효과를 추정하는 데 특화되어 있습니다.
- T-Learner, X-Learner, S-Learner 등의 구조를 기본 제공해, 복잡한 수식을 일일이 구현할 필요 없이 인과추론 실험을 손쉽게 진행할 수 있습니다.
- 특히 Heterogeneous Treatment Effect (이질적 처치 효과) 를 추정하는 데 유용합니다.
- 실제 모델 적용이 간편
- 사이킷런처럼 .fit(), .predict() 인자를 제공해, 머신러닝 모델을 다뤄본 적 있다면 쉽게 적용 가능합니다.
- 예를 들어, X-Learner를 선택해 Baseline 모델을 지정하면, 학습과 예측 과정이 자동으로 정리되어 계산이 간편합니다.
- 다양한 ML 모델 및 Neural Network 지원
- 사이킷런의 Random Forest, XGBoost 등과 같은 머신러닝 모델 뿐만 아니라, Neural Network 기반 모델도 사용할 수 있도록 지원합니다.
1.3 게임 데이터 적용 사례
실제로 게임 데이터에 인과추론을 적용했던 사례도 소개해주셨습니다.
게임 내 복귀 유저를 대상으로 특정 캠페인을 진행하고, 그 효과를 분석하셨다고 합니다. 이때 복귀 유저의 기준은 7일(168시간) 동안 접속하지 않은 유저로 설정했는데, 단순히 평균 효과(ATE, 로지스틱 회귀로 추정함)만 보는 것이 아니라, 유저 특성에 따라 효과가 어떻게 달라지는지 살펴보기 위해 이질적 효과(Heterogeneous Treatment Effect) 분석까지 진행하셨습니다.
분석 결과, 전체적으로는 캠페인의 효과가 뚜렷하지 않았지만, 과금을 많이 하는 유저 그룹에서는 리텐션이 약 6% 개선되는 효과가 확인되었습니다. 반면 일반 유저나 어뷰징 유저 그룹에서는 눈에 띄는 변화가 나타나지 않았습니다.
결과적으로 캠페인의 효과는 모든 유저에게 동일하게 나타나는 것이 아니라, 유저의 특성에 따라 달라진다는 점을 확인할 수 있었고, 따라서 보상 제공이나 캠페인 운영 시 특정 유저 그룹을 타겟팅하는 전략이 효과적이라는 인사이트를 얻을 수 있었다고 합니다.
여담으로 저는 게임을 하지는 않지만, 발표를 들으면서 쿠팡, 컬리 같은 쇼핑몰에 가끔 들어갔을 때 받았던 컴백 기념 쿠폰 같은 마케팅 사례가 떠올랐습니다. 이탈 고객을 대상으로 다시 소비를 유도하려는건데요, 문득 복귀 유저에 대한 기준이 궁금해졌습니다. 해서 이삭님께선 복귀 유저의 기준을 왜 7일로 설정하셨을지? 또 그보다 짧거나 긴 기간으로도 비교해보셨다면 어떤 차이가 있었을지 궁금하네요. 나중에 기회가 된다면 여쭤보고 싶습니다!
2. Marketing Data Analytics
발표 자료 : 🔗
넷마블의 권남택님께서 진행한 Marketing Data Analytics 세미나입니다. 마케팅 데이터 분석은 기업 입장에서 전략적으로 활용되는 만큼 실제 사례와 구체적인 방법론이 공개되기 쉽지 않은 분야인데요, 그만큼 소중한✨ 인사이트를 얻을 수 있었던 세션이었습니다. 세미나를 듣고 정리한 주요 키워드는 다음과 같습니다.
2.1 마케팅 비용의 효율성 및 데이터 분석 시 고려 요소
게임 회사에서는 유저 확보를 위해 막대한 비용을 마케팅에 투자하는데, 그만큼 마케팅 캠페인이 실제로 얼마나 효과가 있었는지를 측정하는 일이 매우 중요하다고 합니다. 하지만 실무에서는 캠페인의 효과를 정확히 측정하는 게 쉽지 않습니다. 왜냐면 유저 행동에 영향을 미치는 외부 변수들이 너무 많고, 이를 통제할 수 없는 경우가 대부분이기 때문입니다.
그럼에도 주어진 조건 내에서 최대한 데이터를 활용해 가장 효율적인 마케팅 비용 구간을 찾아내고자 노력해야 하는데요, 이를 위해 주로 국가별, 매체별, OS별로 데이터를 세분화해 분석한다고 합니다. 특히 게임에서는 국가별 유저 특성이 다르기 때문에, 국가 단위로 쪼개서 캠페인 효과를 살펴보는 것이 중요하다고 강조하셨습니다. 예를 들어, 특정 국가 유저들은 과금 성향이 높고, 다른 국가는 그렇지 않을 수 있기 때문에, 동일한 캠페인이라고 해도 그 효과가 다르게 나타날 수 있습니다.
또 마케팅 비용과 캠페인 효과 간의 관계가 단순히 선형적이지 않다고 언급하셨습니다. Hill Function처럼 어느 순간부터는 효율이 급격히 떨어지는 구간이 나타나기 때문에, 효율이 가장 높은 구간을 찾고, 그 구간 안에서 예산을 집행하는 것이 실무에서의 주요 고민이라고 하셨습니다.
2.3 현실적 어려움
다만 현실적으로는 이상적인 곡선 형태가 그려지기보다는, 제한된 변수와 조건 안에서 로컬한(일시적이고 제한된) 효율 구간을 찾아 움직이는 경우가 많다고 하셨습니다. 외부 요인도 많고, 통제 가능한 영역이 적기 때문에, 오히려 데이터가 어디에서 왔는지, 어떤 맥락에서 수집되었는지를 명확히 이해하는 것이 무엇보다 중요하다고 합니다.
또 인과관계를 파악하는 것 자체가 쉽지 않은 영역이지만, 그럼에도 불구하고 데이터를 기반으로 우리가 어떤 액션을 취할 수 있을지 고민할 수 있는 ‘쉬운 질문’을 만드는 것이 마케팅 데이터 분석에서 가장 필요한 자세라고 말씀해주셨습니다.
추가로 이삭님께서 <인과추론의 데이터과학> 유튜브 채널과 <실무로 통하는 인과추론 with 파이썬> 책을 추천해주셨습니다. 유튜브를 먼저 보고있는데, 다양한 분야(경제학/사회학/과학 등등)에서 인과추론을 이렇게도 적용할 수 있구나 싶어요. 다만 가벼운 내용은 아니라 집중해서 조금씩 보고있습니다.😅 또 네트워킹 시간이 2시간으로 길게 주어져서 쫒기는 시간 없이 많은 분들과 이야기 나눠볼 수 있었는데요, 데이터 직무 뿐만 아니라 교사, CEO, 서버엔지니어 등... 다양한 직무에서 인과추론을 어떻게 활용하고 싶어하시는지 들을 수 있어 흥미로웠습니다. 행사를 주최해주신 가짜연구소 운영진, 연사자분들께 감사드리며, 다음에도 이런 자리가 있다면 또 참석하고 싶습니다. :)
+여담으로 링크드인 계정을 다시 만들어야겠다고 생각했어요. 예전에 구글링하면서 링크드인 게시글 눌렀을 때 그대로 가입을 하게 되어서 회사 계정으로 만들었던 것 같은데 그 계정이 어떻게 됐는지 모르겠네요... 명함보다 가볍기도 해서 더 쉽게 네트워킹 할 수 있는 수단인 것 같습니다.