如何在A/B測試中選擇正確的統計方法:線性回歸與其他工具的對比指南

robot
摘要生成中

超越表面:為什麼線性回歸仍然值得關注

在機器學習和深度學習的浪潮中,我們經常忽視一個經典而強大的工具——線性回歸。雖然LLM和高端架構佔據了頭條,但線性回歸在資料分析中依然發揮著關鍵作用,特別是在A/B測試場景中。

讓我們考慮一個實際案例:一家電商公司上線了新的橫幅設計,需要評估其對用戶平均會話時長的影響。通過實驗收集資料並進行統計分析,我們將探索多種方法來解讀這些結果。

T-Test的快速洞察

使用經典的T-Test作為起點。實驗數據顯示效果顯著:處理組和對照組樣本均值的差異為0.56分鐘,意味著用戶平均多花了33秒在產品上。

這個指標看起來不錯,但它真的反映了橫幅的真實影響嗎?

線性回歸:深入挖掘

現在用線性回歸重新分析。以處理變數(是否展示新橫幅)作為自變數,會話時長作為因變數。模型摘要顯示了什麼?

處理變數的係數恰好是0.56——與T-Test的結果一致。有趣的是,R平方值僅為0.008,說明該模型只解釋了資料中極小部分的變異。

這只是巧合嗎?不是

這兩種方法為何得出相同結果?答案在於它們的數學基礎。

在線性回歸中,當處理變數為1時,代表接收處理的用戶的平均會話時長;為0時,代表未接收處理用戶的平均值。因此,處理係數實際上就是兩組均值的差異

而T-Test檢驗的零假設(兩組均值無差異)與線性回歸處理係數的零假設完全相同。當零假設相同時,兩種方法計算的T統計量和P值也必然相同。

為什麼還要用線性回歸?

簡單的均值比較似乎足夠,但真實世界遠比這複雜得多。

實際上,僅憑處理變數可能無法解釋全部變化——系統性偏差常常存在。例如:

  • 老用戶比新用戶更頻繁接觸新橫幅
  • 不同人口統計特徵的用戶對橫幅反應不同

雖然隨機分配能緩解這個問題,但無法完全消除。這就是我們需要**控制變數(協變數)**的原因。

透過在模型中加入用戶在實驗前的平均會話時長作為控制變數,模型表現立刻改善:R平方飆升至0.86,意味著我們現在解釋了86%的資料變異。

新的處理效果估計為0.47分鐘。

哪個數字更準確?

現在出現了兩個不同的處理效應:0.56和0.47。哪個是真實的?

在真實模擬資料中,實際的處理效應設定為0.5。顯然,加入控制變數後的0.47更接近真實值,誤差僅為0.03。這說明控制關鍵協變數能顯著提升估計準確性

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)