Представьте: крупная компания электронной коммерции запускает новую дизайн-баннер и измеряет среднюю продолжительность сессии. Первый взгляд на данные обещает многое – увеличение на 0,56 минут (примерно 33 секунды за сессию). Звучит многообещающе, не так ли? Но именно здесь начинается приключение глубокого статистического анализа.
Дилемма: насколько мы можем быть уверены, что именно баннер действительно является причиной этого улучшения? Что если более опытные пользователи старше системы систематически чаще видят новый баннер, чем новые клиенты? Ответ приводит нас к классической проблеме эмпирических исследований – выборочной смещенности.
T-тест против линейной регрессии: неправильное противостояние
Классический T-тест быстро даст ответ. Разница между контрольной и экспериментальной группой составляет ровно 0,56 минут – готово. Но часто встречается ошибка: многие аналитики думают, что линейная регрессия актуальна только для более сложных сценариев. Это неправда.
Что произойдет, если вместо этого использовать линейную регрессию с статусом баннера (1 = видимый, 0 = не видимый) в качестве независимой переменной и продолжительностью сессии как зависимой? Удивительно, но мы получим тот же коэффициент для обработки: 0,56 минут. Не случайно – математически оба теста при этих условиях эквивалентны, поскольку они проверяют одну и ту же нулевую гипотезу.
Коэффициент детерминации (R-квадрат) показывает проблему: всего 0,008, объясняем менее 1% дисперсии. Модель игнорирует множество других факторов, которые действительно влияют на то, как долго пользователи остаются на сайте.
Переломный момент: добавление ковариат
Здесь проявляется истинная сила линейной регрессии. Если ввести дополнительную переменную – например, среднюю продолжительность сессии до эксперимента – все меняется кардинально.
Модель резко улучшается: R-квадрат поднимается до 0,86, теперь мы объясняем 86% дисперсии. Что важнее: эффект обработки снижается до 0,47 минут. Почему? Предыдущая ковариата выявляет “эффект снежного кома” – пользователи, уже имевшие длинные сессии, демонстрируют поведение, похожее на снежный ком, при котором небольшие начальные различия накапливаются в большие эффекты.
Это открытие критически важно: первоначальный эффект в 0,56 был частично завышен из-за выборочной смещенности. Пользователи с естественно более длинными сессиями не случайно распределялись между группами – они были более концентрированы в группе обработки.
Матемическая правда: ATE, ATT и SB
Чтобы выразить это формально:
ATE (Средний эффект обработки): средний эффект обработки, который мы пытаемся оценить
ATT (Средний эффект обработки у обработанных): эффект у действительно обработанных пользователей – также называется ACE (Средний причинный эффект)
SB (Выборочное смещение): искажение, которое искажает истинный эффект
Наивная разница между средними группами объединяет эти величины:
Наивная оценка = ATE + SB
С помощью ковариат можно уменьшить смещение и приблизиться к истинному эффекту.
Валидация через моделирование
В контролируемом эксперименте, где истинный эффект известен (0,5 минут), показывается:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Невидимая сила ковариат: как преодолеть искажение выбора в A/B-тестах
Проблема, которую никто не хочет видеть
Представьте: крупная компания электронной коммерции запускает новую дизайн-баннер и измеряет среднюю продолжительность сессии. Первый взгляд на данные обещает многое – увеличение на 0,56 минут (примерно 33 секунды за сессию). Звучит многообещающе, не так ли? Но именно здесь начинается приключение глубокого статистического анализа.
Дилемма: насколько мы можем быть уверены, что именно баннер действительно является причиной этого улучшения? Что если более опытные пользователи старше системы систематически чаще видят новый баннер, чем новые клиенты? Ответ приводит нас к классической проблеме эмпирических исследований – выборочной смещенности.
T-тест против линейной регрессии: неправильное противостояние
Классический T-тест быстро даст ответ. Разница между контрольной и экспериментальной группой составляет ровно 0,56 минут – готово. Но часто встречается ошибка: многие аналитики думают, что линейная регрессия актуальна только для более сложных сценариев. Это неправда.
Что произойдет, если вместо этого использовать линейную регрессию с статусом баннера (1 = видимый, 0 = не видимый) в качестве независимой переменной и продолжительностью сессии как зависимой? Удивительно, но мы получим тот же коэффициент для обработки: 0,56 минут. Не случайно – математически оба теста при этих условиях эквивалентны, поскольку они проверяют одну и ту же нулевую гипотезу.
Коэффициент детерминации (R-квадрат) показывает проблему: всего 0,008, объясняем менее 1% дисперсии. Модель игнорирует множество других факторов, которые действительно влияют на то, как долго пользователи остаются на сайте.
Переломный момент: добавление ковариат
Здесь проявляется истинная сила линейной регрессии. Если ввести дополнительную переменную – например, среднюю продолжительность сессии до эксперимента – все меняется кардинально.
Модель резко улучшается: R-квадрат поднимается до 0,86, теперь мы объясняем 86% дисперсии. Что важнее: эффект обработки снижается до 0,47 минут. Почему? Предыдущая ковариата выявляет “эффект снежного кома” – пользователи, уже имевшие длинные сессии, демонстрируют поведение, похожее на снежный ком, при котором небольшие начальные различия накапливаются в большие эффекты.
Это открытие критически важно: первоначальный эффект в 0,56 был частично завышен из-за выборочной смещенности. Пользователи с естественно более длинными сессиями не случайно распределялись между группами – они были более концентрированы в группе обработки.
Матемическая правда: ATE, ATT и SB
Чтобы выразить это формально:
Наивная разница между средними группами объединяет эти величины:
Наивная оценка = ATE + SB
С помощью ковариат можно уменьшить смещение и приблизиться к истинному эффекту.
Валидация через моделирование
В контролируемом эксперименте, где истинный эффект известен (0,5 минут), показывается: