協變數的無形力量:如何克服A/B測試中的選擇偏差

沒有人想看到的問題

想像一下:一家大型電子商務公司推出了一個新的設計橫幅,並測量平均會話時長。初步數據看起來很有希望——每次會話增加了0.56分鐘(約33秒)。聽起來很有前景,對吧?但這裡開始了統計深度分析的冒險。

困境:我們能多大程度上確信這個橫幅真的導致了這個改善?如果年長且技術熟練的用戶系統性地比新用戶更頻繁地看到新橫幅,該怎麼辦?答案引導我們回到經典的經驗研究問題——選擇偏誤

T檢驗 vs. 線性回歸:錯誤的對決

傳統的T檢驗能快速給出答案。控制組與處理組之間的差異正好是0.56分鐘——就這樣。但一個常見的錯誤是:許多分析師認為,線性回歸只適用於較複雜的情境。這是錯的。

如果我們改用線性回歸,以橫幅狀態(1=可見,0=不可見)作為自變數,會話時長作為輸出,會發生什麼?令人驚訝的是,我們得到的處理效應係數也是0.56分鐘。這不是巧合——在這些條件下,兩者的檢驗在數學上是等價的,因為它們測試的是相同的虛無假設。

但R平方揭示了一個問題:只有0.008,我們解釋的變異不到1%。模型忽略了許多實際影響用戶停留時間的其他因素。

改變遊戲規則的關鍵:加入協變數

這裡展現了線性回歸的真正優勢。如果我們引入一個額外變數——例如實驗前用戶的平均會話時長——一切都會發生戲劇性的變化。

模型立即改善:R平方升至0.86,我們解釋了86%的變異。更重要的是:處理效應下降到0.47分鐘。為什麼?先前的協變數揭示了一個“雪球效應”——已經有較長會話的用戶,展現出類似滾雪球的行為模式,小的初始差異會逐漸放大成較大的效果。

這個發現至關重要:原本的0.56效果部分是由選擇偏誤造成的膨脹。具有自然較長會話的用戶並非隨機分配到各組——他們更集中在處理組。

數學真相:ATE、ATT 和 SB

用數學來表達:

  • ATE (平均處理效果):我們想估計的平均處理效果
  • ATT (平均處理於受處理者):實際受處理用戶的效果,也稱為ACE (平均因果效果)
  • SB (選擇偏誤):扭曲真實效果的選擇偏誤

群組平均值之間的天真差異混淆了這些量:

天真估計 = ATE + SB

利用協變數,我們可以減少偏誤,更接近真實效果。

通過模擬驗證

在一個已知真實效果為0.5分鐘(的控制實驗中,結果顯示:

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)