Скрытая проблема масштабирования электронной коммерции
Большинство говорят о распределённом поиске и рекомендательных системах, когда речь заходит о масштабировании в электронной коммерции. Но под поверхностью скрывается более упрямная, часто недооцениваемая проблема: управление значениями атрибутов в каталогах товаров. При более чем 3 миллионах SKU это быстро превращается в системную проблему.
Значения атрибутов — это фундамент обнаружения продуктов. Они управляют фильтрами, сравнениями и ранжированием поиска. Но на практике они фрагментированы: «XL», «Small», «12cm» и «Large» смешаны в одном поле. Или цвета, такие как «RAL 3020», «Crimson», «Red» и «Dark Red», без последовательной структуры. Умножая эти несогласованности по десяткам атрибутов на продукт, проблема экспоненциально возрастает.
Фильтры ведут себя непредсказуемо, поиск теряет релевантность, а навигация по сайту вызывает разочарование. В то же время продавцы тонут в ручной очистке данных.
Ответ: интеллектуальные гибридные пайплайны с контрольными механизмами
Вместо чёрного ящика ИИ, который произвольно сортирует данные, была создана архитектура на трёх столпах:
Объяснимость: каждое решение можно проследить
Предсказуемость: система ведёт себя последовательно
Человеческий контроль: мерчандайзеры могут вручную задавать критические атрибуты
Результатом стала гибридная пайплайн, сочетающая интеллект LLM с ясными правилами и сохранением данных. Она действует умно, остаётся управляемой — ИИ с ограничителями, а не неконтролируемый.
Офлайн-обработка вместо потоковых систем в реальном времени
Ключевым решением было использование фоновых задач вместо систем в реальном времени. Это кажется компромиссом, но было стратегически оправдано:
Обработка в реальном времени означала бы:
Непредсказуемую задержку
Хрупкие зависимости системы
Дорогие пики нагрузки
Операционные сложности
Вместо этого офлайн-задачи обеспечивали:
Высокий пропуск без влияния на клиентов
Надёжность: сбои не затрагивали живую систему
Контроль затрат за счёт плановой обработки
Изоляцию от задержек LLM
Атомарные, предсказуемые обновления
Разделение клиентских систем и пайплайнов обработки данных — критично при миллионах SKU.
Архитектура с сохранением и согласованностью данных
Вся сохранность данных осуществлялась через MongoDB как центральное рабочее хранилище:
Извлечение атрибутов: первый задание собирал сырые значения и контекст категории
Сервис ИИ: LLM получал очищенные данные и контекст (хлебные крошки категории, метаданные)
Детерминированные резервные механизмы: автоматическое распознавание числовых диапазонов и простых множеств, сортировка по правилам
Сохранение: отсортированные значения, уточнённые имена атрибутов и теги сортировки сохранялись в MongoDB
Интеграция поиска: обновлённые данные поступали в Elasticsearch (ключевое слово поиска) и Vespa (семантический поиск)
Эта структура хранения позволяла легко проверять, перезаписывать и синхронизировать данные с другими системами.
Гибридное управление: ИИ и решения продавцов
Не все атрибуты требуют интеллекта ИИ. Поэтому каждую категорию можно было помечать:
LLM_SORT: модель принимает решения о сортировке
MANUAL_SORT: продавцы задают порядок вручную
Эта двойная система тегов укрепляла доверие. Люди сохраняли контроль над критическими атрибутами, а ИИ выполнял рутинные задачи — без прерывания пайплайна.
Очистка данных как основа
Перед применением ИИ происходил важный этап предварительной обработки:
Удаление пробелов
Удаление пустых значений
Дедупликация
Стандартизация контекста категории
Эта, казалось бы, простая очистка значительно повышала точность LLM. Чистые входные данные приводили к последовательным результатам — базовому принципу в масштабах.
Практическое применение трансформации
Пайплайн преобразовывал хаотичные сырые данные в структурированные выводы:
Атрибут
Сырые значения
Отсортированный вывод
Размер
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Цвет
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Материал
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Числовые
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Бизнес-эффекты
Результаты были значительными:
Последовательная сортировка атрибутов для более чем 3М SKU
Предсказуемая числовая сортировка с помощью детерминированной логики
Улучшенная релевантность поиска
Интуитивные фильтры на страницах товаров
Повышенное доверие клиентов и конверсия
Это был не только технический успех — это повысило пользовательский опыт и доходы.
Ключевые выводы
Гибрид превосходит чистый ИИ: ограничители важны в масштабах
Контекст — король: лучший контекст = значительно лучшие результаты LLM
Офлайн-архитектура создаёт устойчивость: фоновые задачи — фундамент пропускной способности
Сохранение без потери контроля: механизмы ручного перезаписывания укрепляют доверие
Чистые входные данные — надёжные выходы: качество данных определяет успех ИИ
Итог
Сортировка значений атрибутов кажется тривиальной задачей, но превращается в настоящую проблему при миллионах товаров. Комбинация интеллекта LLM, явных правил, сохранения данных и контроля продавцов создала систему, которая элегантно решает сложные скрытые вызовы. Она напоминает, что самые большие успехи часто достигаются в решении скучных, недооценённых проблем — тех, что влияют на каждую страницу товара.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Как гибридные архитектуры ИИ управляют миллионами атрибутов продуктов последовательно
Скрытая проблема масштабирования электронной коммерции
Большинство говорят о распределённом поиске и рекомендательных системах, когда речь заходит о масштабировании в электронной коммерции. Но под поверхностью скрывается более упрямная, часто недооцениваемая проблема: управление значениями атрибутов в каталогах товаров. При более чем 3 миллионах SKU это быстро превращается в системную проблему.
Значения атрибутов — это фундамент обнаружения продуктов. Они управляют фильтрами, сравнениями и ранжированием поиска. Но на практике они фрагментированы: «XL», «Small», «12cm» и «Large» смешаны в одном поле. Или цвета, такие как «RAL 3020», «Crimson», «Red» и «Dark Red», без последовательной структуры. Умножая эти несогласованности по десяткам атрибутов на продукт, проблема экспоненциально возрастает.
Фильтры ведут себя непредсказуемо, поиск теряет релевантность, а навигация по сайту вызывает разочарование. В то же время продавцы тонут в ручной очистке данных.
Ответ: интеллектуальные гибридные пайплайны с контрольными механизмами
Вместо чёрного ящика ИИ, который произвольно сортирует данные, была создана архитектура на трёх столпах:
Результатом стала гибридная пайплайн, сочетающая интеллект LLM с ясными правилами и сохранением данных. Она действует умно, остаётся управляемой — ИИ с ограничителями, а не неконтролируемый.
Офлайн-обработка вместо потоковых систем в реальном времени
Ключевым решением было использование фоновых задач вместо систем в реальном времени. Это кажется компромиссом, но было стратегически оправдано:
Обработка в реальном времени означала бы:
Вместо этого офлайн-задачи обеспечивали:
Разделение клиентских систем и пайплайнов обработки данных — критично при миллионах SKU.
Архитектура с сохранением и согласованностью данных
Вся сохранность данных осуществлялась через MongoDB как центральное рабочее хранилище:
Эта структура хранения позволяла легко проверять, перезаписывать и синхронизировать данные с другими системами.
Гибридное управление: ИИ и решения продавцов
Не все атрибуты требуют интеллекта ИИ. Поэтому каждую категорию можно было помечать:
Эта двойная система тегов укрепляла доверие. Люди сохраняли контроль над критическими атрибутами, а ИИ выполнял рутинные задачи — без прерывания пайплайна.
Очистка данных как основа
Перед применением ИИ происходил важный этап предварительной обработки:
Эта, казалось бы, простая очистка значительно повышала точность LLM. Чистые входные данные приводили к последовательным результатам — базовому принципу в масштабах.
Практическое применение трансформации
Пайплайн преобразовывал хаотичные сырые данные в структурированные выводы:
Бизнес-эффекты
Результаты были значительными:
Это был не только технический успех — это повысило пользовательский опыт и доходы.
Ключевые выводы
Итог
Сортировка значений атрибутов кажется тривиальной задачей, но превращается в настоящую проблему при миллионах товаров. Комбинация интеллекта LLM, явных правил, сохранения данных и контроля продавцов создала систему, которая элегантно решает сложные скрытые вызовы. Она напоминает, что самые большие успехи часто достигаются в решении скучных, недооценённых проблем — тех, что влияют на каждую страницу товара.