순차 테스트 대 고정 Horizon T-테스트: 각각을 언제 사용해야 합니까?

게시 됨: 2022-06-10

실험은 제품 팀이 상관 관계 대신 인과 관계를 기반으로 더 나은 결정을 내리는 데 도움이 됩니다 . "< 제품의 이 부분>을 변경하면 전환율이 5% 증가합니다."와 같은 진술을 할 수 있습니다. 실험하지 않고 보다 일반적인 접근 방식은 도메인 지식을 기반으로 변경하거나 고객 요청을 선택하는 것입니다. 이제 데이터 기반 회사는 의사 결정을 보다 객관적으로 만들기 위해 실험을 사용합니다. 인과관계의 큰 구성 요소는 실험 데이터의 통계적 분석입니다.

Amplitude에서는 최근 실험 초기부터 진행해 온 순차 테스트와 함께 고정 수평 T-테스트를 ​​출시했습니다. 우리는 "어떤 테스트를 선택해야 하는지 어떻게 알 수 있습니까?"라고 묻는 여러 고객을 상상합니다.

이번 테크니컬 포스트에서는 순차검정과 고정수평 T검정의 장단점을 설명드리겠습니다.

참고: 이 게시물 전체에서 T-검정이라고 할 때 고정 수평선 T-검정을 참조합니다.

각 접근 방식에는 장단점이 있으며 한 가지 방법이 항상 다른 것보다 나은 경우는 아닙니다.

순차 테스트의 장점

먼저 순차 테스트의 장점을 살펴보겠습니다.

여러 번 엿보기 → 실험을 일찍 종료

순차 테스트의 장점은 여러 번 엿볼 수 있다는 것입니다. Amplitude에서 사용하는 mSPRT(혼합 순차 확률 비율 테스트)라고 하는 특정 버전의 순차 테스트를 사용하면 원하는 만큼 여러 번 엿볼 수 있습니다. 또한 그룹화 된 순차 테스트와 같이 몇 번을 엿볼 것인지 테스트 시작 전에 결정할 필요가 없습니다. 그 결과 모든 제품 관리자(PM)가 원하는 작업, 즉 "통계적으로 유의미할 때까지 테스트를 실행한 다음 중지"할 수 있습니다. 목표일자 펀드의 "설정하고 잊어버리십시오" 접근 방식과 유사합니다. 고정 지평선 프레임워크에서는 위양성 비율이 증가하므로 이 작업을 수행하지 않아야 합니다. 효과 크기가 최소 감지 효과(MDE)보다 훨씬 큰 경우 자주 엿봄으로써 실험 기간을 줄일 수 있습니다.

당연히 우리는 인간으로서 데이터를 계속 살펴보고 고객 기반에 가능한 한 빨리 도움이 되는 기능을 출시하기를 원합니다. 종종 PM은 데이터 과학자에게 실험이 시작된 지 며칠 후 실험이 어떻게 진행되고 있는지 물을 것입니다. 고정 수평선 테스트에서 데이터 과학자는 실험에 대해 통계적으로(신뢰 구간 또는 p 값) 말할 수 없으며 이것이 노출된 사용자의 수이고 이것이 처리 평균 및 제어 평균이라고 말할 수 있을 뿐입니다. 순차 테스트를 통해 데이터 과학자는 실험 중 언제든지 PM에 유효한 신뢰 구간과 p-값을 제공할 수 있습니다.

일부 실험 대시보드에서는 고정 기간 테스트의 경우에도 통계 수량(신뢰 구간 및 p 값)이 사용자에게 숨겨지지 않습니다. 종종 데이터 과학자들은 대시보드가 ​​"모두 녹색"이기 때문에 승리한 변형을 출시할 수 없는 이유를 묻는 질문을 받습니다. 그런 다음 데이터 과학자는 실험이 필요한 샘플 크기에 도달하지 않았으며 실험이 시작되면 실제로 사용자에게 부정적인 영향을 미칠 수 있음을 설명해야 합니다. 그런 다음 PM은 동료가 필요한 샘플 크기에 도달하기 전에 실험을 시작한 이유에 대해 질문합니다. 이로 인해 많은 불일치가 발생하고 사람들은 자신의 실험이 롤아웃되지 않는 것에 대해 혼란스러워합니다. 순차 테스트를 사용하면 더 이상 데이터 과학자가 답해야 하는 질문이 아닙니다. 고정 수평선의 경우 진폭은 이 문제를 해결하는 데 도움이 되는 누적 노출, 처리 평균 및 제어 평균만 표시합니다. 원하는 샘플 크기에 도달하면 Amplitude에 통계 결과가 표시됩니다. 이것은 엿보기를 방지하여 위양성 비율을 제어하는 ​​데 도움이 됩니다.

샘플 크기 계산기를 사용할 필요가 없습니다.

순차 테스트의 또 다른 장점은 고정 수평선 테스트에 사용해야 하는 샘플 크기 계산기를 사용할 필요가 없다는 것입니다. 종종 비기술자들은 표본 크기 계산기를 사용하는 데 어려움을 겪으며 모든 입력이 의미하는 바가 무엇인지 또는 입력해야 하는 숫자를 계산하는 방법을 모릅니다. 예를 들어, 메트릭의 표준 편차를 아는 것은 대부분의 사람들이 아는 것이 아닙니다. 그들의 머리 꼭대기에서. 또한 샘플 크기 계산기에 올바른 숫자를 입력하지 않으면 문제가 발생합니다. 예를 들어 기본 전환율을 5%로 입력했지만 실제 기본 전환율은 10%였습니다. 테스트 중간에 필요한 샘플 크기를 다시 계산할 수 있습니까? 실험을 다시 시작해야 합니까? Amplitude가 이 문제를 완화하는 한 가지 방법은 표준 산업 기본값(95% 신뢰 수준 및 80% 검정력)으로 샘플 크기 계산기를 미리 채우고 지난 7일 동안 관리 평균과 표준 편차(필요한 경우)를 계산하는 것입니다. 샘플 크기 계산기에는 "파워"(1-위음성 비율)라는 필드가 있습니다. 순차 테스트에서 이 필드는 기본적으로 "테스트를 실행할 의향이 있는 날짜"로 대체됩니다. 이것은 훨씬 더 해석하기 쉬운 숫자이며 사람들이 생각해내기 쉬운 숫자입니다.

전원 1 테스트

또 다른 이점은 순차 검정이 검정력이 1인 검정이라는 것입니다. 비기술적 용어로 처리 평균과 대조 평균 사이에 우연히 생성되지 않은 진정한 차이가 있는 경우 검정에서 결국 이를 찾습니다(즉, , 통계적으로 유의하게 됨). 테스트가 결정적이지 않다고 상사에게 말하는 대신 통계적으로 유의한 결과를 얻을 때까지 더 기다려야 한다고 말할 수 있습니다.

첫 번째 이점을 살펴보면 실제 효과 크기와 최소 감지 효과(MDE) 간의 관계를 사용하여 실험에서 어떤 일이 발생할 수 있는지 알아봅니다. 세 가지 경우는 MDE를 과소평가하거나 MDE를 정확하게 추정하거나 MDE를 과대평가하는 경우입니다.

고정 호라이즌 테스트 순차 테스트 어떤게 더 좋아?
MDE를 과소평가합니다(예: MDE로 1을 선택하지만 효과 크기는 2임). 필요 이상으로 테스트를 실행합니다. 원하는 것보다 더 큰 힘을 가지세요. 테스트를 일찍 중지하십시오. 순차 테스트.
MDE를 정확하게 추정합니다(예: 실험 전에 MDE로 1을 선택하고 효과 크기를 1로 선택). 더 작은 신뢰 구간을 얻으십시오. 실험 전 원하는 정확한 힘을 얻으십시오. 더 큰 신뢰 구간. 통계적 유의성을 얻으려면 더 오래 기다려야 합니다(즉, 테스트를 더 오래 실행). 고정되었지만 고정 수평선 테스트에서 위음성을 얻을 가능성이 여전히 있음을 기억하십시오.
MDE를 과대평가합니다(예: MDE로 1을 선택하지만 효과 크기는 .5임). 저전력 테스트. 결정적이지 않은 테스트를 받고 테스트를 중단해야 할 가능성이 있습니다. 결정적이지 않은 테스트를 받을 가능성이 높습니다. 그러나 통계적으로 유의미한 결과를 얻기 위해 테스트를 더 오래 실행할 수 있습니다. 그렇다면 문제는 리프트가 너무 작기 때문에 통계적으로 유의미한 결과를 얻는 것이 중요합니까? 출시하기 위한 엔지니어링 노력의 가치가 있습니까? 순차 테스트, 하지만 약간만.

일반적으로 효과 크기를 알지 못합니다(알았다면 실험할 의미가 없음). 따라서 3가지 경우 중 어떤 경우에 해당하는지 알 수 없습니다. 3가지 경우 각각에 해당될 확률을 추정하려고 합니다.

기본 규칙 : 여기에서는 위의 표를 요약하는 규칙을 살펴보겠습니다. 고정 수평선 테스트에 대한 경험이 있는 경우 감지 가능한 최소 효과의 개념에 익숙할 것입니다. 우리는 이 개념을 확장하여 이론적으로 실험에서 발생할 수 있다고 생각하는 최대 효과 크기인 최대 감지 효과를 정의합니다. 감지 가능한 최대 효과를 선택하려면 이전 실험의 효과 크기의 최대값을 사용하거나 도메인 지식이 있는 경우 이를 사용하여 합리적인 값을 선택할 수 있습니다. 예를 들어 버튼 색상을 변경하는 경우 클릭률이 20% 이상 증가하지 않을 것임을 알고 있습니다. 기본적으로 감지 가능한 최소 효과는 최악의 시나리오를 제공하고 감지 가능한 최대 효과는 최상의 시나리오를 제공합니다. 그런 다음 고정 수평선 샘플 크기 계산기를 사용하여 최소 감지 효과와 최대 감지 효과를 모두 연결합니다. 두 상황 사이에 필요한 샘플 수의 차이를 고려하십시오. 이 두 값 사이에 추가 시간을 기다려도 괜찮습니까? 3일만 더 기다리면 될 수도 있습니다. 그러면 순차 테스트를 사용하면 최대 3일만 절약할 수 있기 때문에 고정 기간 테스트를 사용하는 것이 더 나을 것입니다. 10일을 절약할 수 있는 기회가 있을 수 있습니다. 그런 다음 순차 테스트를 사용할 수 있습니다.

요약하면 순차 테스트의 장점은 다음과 같습니다.

  • 표본 크기 계산기를 사용하지 않고 엿보기에 대해 알 필요가 없기 때문에 진입 장벽이 낮아집니다.
  • 엿보기가 허용됩니다.
  • 어떤 경우에는 실험이 더 빨리 완료됩니다.

고정 수평선 T-검정 장점

이제 기어를 바꿔서 T-검정이 유리한 몇 가지 사례를 살펴보겠습니다. t-test를 사용하면 다음과 같은 질문을 해야 합니다. 순차 테스트에서 일찍 중지하라고 하면 실제로 일찍 중지할까요?

큰 회사

일반적으로 큰 회사라면 많은 실험을 해보았고 감지할 수 있는 최소 효과가 어느 정도인지 알 것입니다. 또한 1% 또는 2% 개선을 하고 있으므로 실제 효과 크기가 감지 가능한 최소 효과에서 크게 벗어나지 않을 것입니다. 즉, 검출 가능한 최대 효과와 검출 가능한 최소 효과의 차이가 작다. 따라서 고정 수평선 테스트를 사용하는 것이 좋습니다.

이미 데이터 과학 조직이 있음

고정 지평선 T-검정은 표준 교과서 Stats 101 방법론입니다. 대부분의 데이터 과학자는 이 방법론에 익숙해야 하므로 이 방법을 사용하는 데 마찰이 덜할 것입니다.

작은 표본 크기

표본 크기가 정말 작은 경우 어떤 방법론이 더 나은지 항상 명확하지 않습니다. 주요 변경 사항을 테스트하는 경우(회사/고객 기반이 작은 경우 수행해야 함) 최대 감지 효과와 최소 감지 효과의 차이가 크기 때문에 순차적이 유리합니다. 반면에 표본 크기가 작기 때문에 매우 정확하고 더 작은 신뢰 구간을 원하므로 이 경우 고정 수평선 검정이 적합합니다. 데이터가 정말 작은 경우 합리적인 시간 내에 통계적 유의성에 도달할 수 있는지에 대해 질문하고 싶을 것입니다. 대답이 아니오인 경우 A/B 테스트는 이 경우 올바른 방법론이 아닐 수 있습니다. 사용자 연구를 수행하거나 고객이 요청하고 긍정적인 효과가 있을 것이라고 가정하는 변경을 수행하는 데 시간을 더 잘 사용할 수 있습니다.

계절성

계절성은 일정한 간격의 변동을 의미합니다. 계절성은 한 달과 같이 아주 긴 간격에 걸쳐 있을 필요는 없습니다. 요일 수준에서도 가능합니다. 제품에 따라 주말에 제품을 사용하는 사용자와 평일에 제품을 사용하는 사용자가 다를 수 있습니다. 예를 들어 주중에는 사람들이 주말에 더 많이 주소를 검색할 수 있는 지도 엔진을 들 수 있습니다. 사람들은 레스토랑을 더 많이 검색할 수 있습니다. 평일에 치료를 받은 사용자는 양의 상승도를 갖고 주말에 치료를 받는 사용자는 음의 상승도를 가질 수 있으며 그 반대의 경우도 마찬가지입니다.

여기서 물어봐야 할 질문은 T-검정이 1주일 동안 실행된다고 하고 순차 검정이 4일 후에 통계적 유의성에 도달하면 정말로 4일에 중지하시겠습니까? 여기서 요일 효과가 있다고 생각되면 T-검정을 실행하는 것이 좋습니다. 4일 후에 중단한 경우 해당 4일 동안 얻은 날짜가 1주 또는 2주 동안 실험을 실행한 경우 볼 수 있는 데이터를 나타내는 것으로 가정하고 있습니다.

일반적으로 비즈니스 주기의 정수 수에 대해 실험을 실행하려고 합니다. 그렇지 않은 경우 특정 날짜에 과체중일 수 있습니다. 예를 들어 월요일에 실험을 시작하고 10일 동안 실행하면 월요일 데이터에는 2/10의 가중치를 부여하지만 일요일 데이터에는 1/10의 가중치를 부여합니다. 실험을 더 오래 실행할수록 요일 효과가 감소합니다. 이것이 회사에서 2주 동안 실험을 실행하는 일반적인 경험 법칙을 볼 수 있는 이유 중 하나입니다.

데이터의 계절적 패턴을 보여주는 차트의 스크린샷
다음은 계절성이 있는 차트의 예입니다.

장기 지표 연구

때로는 30일 유지 또는 60일 수익과 같은 장기 측정항목에 관심이 있을 수 있습니다. 이러한 메트릭은 월간 구독을 연구하고 무료 평가판이나 할인을 제공할 때 발생합니다. 생각해야 할 한 가지는 일찍 멈추면 얼마나 많은 이득을 얻을 수 있습니까? 예를 들어, 30일 보존을 연구하는 경우 1일 데이터를 얻으려면 30일을 기다려야 합니다. 이 때문에 이러한 종류의 실험은 일반적으로 몇 달 동안 진행됩니다. 실험을 며칠 일찍 끝낼 수 있다면 큰 성공이 아닙니다. 또한 장기 메트릭을 선택할 때 30일 유지와 60일 유지 모두에 관심이 있을 수 있습니다. 30일 유지를 늘리지만 60일 유지를 줄이면 성공이 아닐 수 있기 때문입니다. 실험을 더 빠르게 반복할 수 있도록 60일 대신 30일 보존을 선택할 수 있습니다. 사용할 수 있는 한 가지 방법은 30일 보존에 대한 통계적 유의성을 테스트한 다음 60일 보존에 대한 방향성을 확인하는 것입니다.

장기 메트릭을 사용하면 메트릭을 관찰하기 위해 기다려야 하기 때문에 일찍 멈출 수 없습니다. 순차 테스트는 일반적으로 사용자를 치료한 후 즉시 응답을 받을 때 더 잘 작동합니다.

장기 측정항목으로 실험을 실행할 수 있는 두 가지 방법이 있습니다.

  1. 필요한 샘플 크기에 도달한 다음 실험을 끕니다. 모든 사용자가 30일 동안 실험에 참여할 때까지 기다립니다.
  2. 30일 동안 실험에 참여한 사용자에게 필요한 샘플 크기를 얻을 때까지 실험을 실행합니다.

일반적으로 순차 테스트를 실행하는 경우 옵션 #1을 수행하고 싶지 않습니다. 순차 테스트의 요점은 필요한 샘플 크기를 모른다는 것입니다. 치료가 긍정적이지 않을 수 있다고 생각되면 보수적이고 너무 많은 사용자를 실험에 노출시키지 않으려면 옵션 #1을 수행하는 것을 고려할 수 있습니다.

고려해야 할 또 다른 사항은 사용자를 치료하는 횟수입니다. 사용자를 두 번만 치료하는 경우 치료와 통제 간의 몇 가지 차이점만으로 매우 큰 효과를 볼 수 있는지에 대해 생각해야 합니다. 이것은 더 작은 효과 크기로 이어집니다.

참신 효과

참신 효과는 사용자에게 새로운 기능을 제공하고 사용자가 해당 기능과 많이 상호 작용하지만 상호 작용을 중단할 수 있는 경우입니다. 예를 들어, 큰 버튼이 있는데 사람들이 처음 봤을 때는 많이 클릭하지만 나중에는 클릭을 멈춥니다. 메트릭이 항상 증가했다가 감소할 필요는 없으며 다른 방향으로도 갈 수 있습니다. 예를 들어, 사용자는 변경을 싫어하고 처음에는 기능과 상호 작용하지 않지만 시간이 지나면 기능과 상호 작용하기 시작하고 유용성을 알게 됩니다. 참신 효과에 대한 해결책은 실험을 더 오래 실행하고 사용자가 실험에 노출된 처음 며칠 동안의 데이터를 제거하는 것입니다. 이는 장기 메트릭을 사용하는 것과 유사합니다.

실험 결과

올해 우리는 A/B 데이터를 Amplitude에 직접 업로드하고 실험 분석을 시작할 수 있는 Experiment 내의 새로운 기능인 Experiment Results를 출시했습니다. 실험이 진행되는 동안 데이터를 업로드하고 순차적 테스트를 통해 데이터를 분석할 수 있습니다. 또는 다른 사용 사례는 실험이 완료될 때까지 기다린 다음 데이터를 Amplitude에 업로드하여 분석하는 것입니다. 이렇게 하면 이미 실험이 끝났고 할 수 있는 조기 중지가 없기 때문에 순차 테스트를 사용하는 것은 의미가 없으므로 T-테스트를 ​​사용해야 합니다.

모든 실험에 이러한 비표준 문제가 있는 것은 아닙니다. 생각해 봐야 할 질문은 이미 장기 실험을 하고 있다면 실험을 일찍 끝내면 정말 그 만큼의 시간을 절약할 수 있을지, 일찍 중단했기 때문에 어떤 분석을 할 수 있는지, 중단한다면 어떤 종류의 분석이 초기에 어떤 종류의 가정을 하고 있으며 그러한 가정을 해도 괜찮습니다. 모든 실험이 동일한 것은 아니며 회사 내의 비즈니스 전문가가 어떤 테스트가 적절하고 결과를 가장 잘 해석할 수 있는지 결정하는 데 도움을 줄 수 있습니다.


어디서부터 시작해야 할지 모르겠다고요? 데모를 요청하시면 귀하의 비즈니스에 가장 적합한 옵션을 안내해 드리겠습니다!

제품 분석 시작하기