Практический путь решения хаоса в свойствах крупномасштабных электронных коммерческих продуктов с помощью ИИ

Когда люди обсуждают масштабирование электронной коммерции, они всегда сосредотачиваются на таких технологических вызовах, как распределённый поиск, инвентарь, системы рекомендаций — казалось бы, грандиозные задачи. Но по-настоящему головную боль каждому платформе создают самые базовые проблемы: несогласованность значений атрибутов.

Значения атрибутов управляют всей системой обнаружения товаров. Они поддерживают фильтрацию, сравнение, ранжирование поиска и логику рекомендаций. Однако в реальных каталогах товаров значения атрибутов редко бывают чистыми. Повторения, хаотичный формат, неясная семантика — это норма.

Рассмотрим такой, казалось бы, простой атрибут, как “Размер”: [“XL”, “Small”, “12cm”, “Large”, “M”, “S”]

И “Цвет”: [“RAL 3020”, “Crimson”, “Red”, “Dark Red”]

Обозревать эти хаотичные значения кажется безобидным, но когда у вас более 3 миллионов SKU, каждый из которых содержит десятки атрибутов, проблема превращается в системный вызов. Поиск становится запутанным, рекомендации не работают, операционная деятельность поглощена ручной корректировкой, а пользовательский опыт падает.

Разрушение мышления “черного ящика”: концепция гибридных интеллектуальных систем

Перед лицом этой проблемы важно избегать ловушки “черного ящика AI” — системы, которая загадочно сортирует вещи, и никто не понимает или не может контролировать её работу.

Правильный подход — построить конвейер с такими характеристиками:

  • Высокая объяснимость
  • Предсказуемое поведение
  • Масштабируемость
  • Возможность ручного вмешательства

Итоговое решение — гибридный AI-конвейер: способность LLM понимать контекст в сочетании с чёткими правилами и ручным управлением. Он работает умно там, где нужно, но всегда остаётся под контролем. Это AI с ограждениями, а не вышедший из-под контроля.

Офлайн-обработка: основа масштабируемой архитектуры

Все операции с атрибутами выполняются в фоновых офлайн-задачах, а не в реальном времени. Это не компромисс, а стратегическое архитектурное решение.

Реалтайм-конвейер кажется привлекательным, но при масштабах электронной коммерции он вызывает:

  • Непредсказуемые задержки
  • Хрупкие цепочки зависимостей
  • Всплески вычислительных затрат
  • Уязвимость в эксплуатации

А офлайн-задачи обеспечивают:

  • Высокую пропускную способность: пакетная обработка огромных данных без влияния на клиентские системы
  • Устойчивость к сбоям: сбои никогда не затрагивают пользовательский трафик
  • Контролируемые издержки: вычисления можно планировать в низкие периоды
  • Изоляцию: задержки LLM полностью отделены от страниц товаров
  • Атомарную согласованность: обновления предсказуемы и синхронизированы

При работе с миллионами SKU важно изолировать клиентские системы и обработку данных.

Очистка данных: наиболее выгодный шаг по затратам и результатам

Перед применением AI необходимо провести строгую предобработку — этот шаг кажется простым, но даёт заметный эффект.

Процессы очистки включают:

  • Удаление пробелов в начале и конце
  • Удаление пустых значений
  • Удаление дубликатов
  • Упрощение путей категорий в структурированные строки

Это гарантирует, что LLM получит чистый и ясный вход. В масштабных системах даже малейший шум может в будущем привести к крупным проблемам. “Мусор — в мусор”. Этот базовый принцип особенно важен при работе с миллионами данных.

Контекстное обогащение сервиса LLM

LLM — это не просто сортировка атрибутов по алфавиту. Он действительно понимает их смысл.

Этот сервис принимает:

  • Очистленные значения атрибутов
  • Информацию о категориях (хлебные крошки)
  • Метаданные атрибутов

Имея эти контексты, модель может понять:

  • В электроинструментах “напряжение” должно сортироваться по числовым значениям
  • В одежде “Размер” следует логике (S→M→L→XL)
  • В красках “Цвет” может использоваться стандарт RAL (например, RAL 3020)
  • В аппаратуре “Материал” имеет семантические связи (сталь→нержавеющая→углеродистая)

Модель возвращает:

  • Отсортированные значения
  • Полные имена атрибутов
  • Маркер решения: использовать детерминированное или контекстуальное ранжирование

Это позволяет конвейеру обрабатывать разные типы атрибутов без жесткого кодирования правил для каждого.

Детерминированное откатывание: знать, когда AI не нужен

Не все атрибуты требуют AI. На самом деле, многие лучше обрабатывать детерминированной логикой.

Диапазоны чисел, единицы измерения, простые множества — всё это выигрывает от:

  • Быстрого выполнения
  • Полностью предсказуемого порядка
  • Низких затрат
  • Отсутствия неоднозначности

Конвейер автоматически распознаёт такие случаи и применяет детерминированные правила. Это сохраняет эффективность системы и избегает ненужных вызовов LLM.

Баланс власти: система тегов для продавцов

Продавцы должны сохранять контроль, особенно над ключевыми атрибутами. Поэтому каждый классификационный элемент можно пометить как:

  • LLM_SORT — модель принимает решение
  • MANUAL_SORT — ручной порядок, задаваемый продавцом

Эта двойная система тегов позволяет человеку сохранять окончательное слово, а AI — выполнять большую часть работы. Она также создает доверие — продавец знает, что может в любой момент переопределить решение модели без остановки конвейера.

Постоянство данных: MongoDB как единый источник истины

Все результаты напрямую записываются в Product MongoDB, что делает архитектуру простой и централизованной. MongoDB становится единственным хранилищем для:

  • Отсортированных значений атрибутов
  • Полных имён атрибутов
  • Категориальных тегов
  • Полей сортировки товаров

Это облегчает аудит изменений, переопределение значений, повторную обработку категорий и синхронизацию с другими системами.

Замкнутый цикл поиска: от данных к обнаружению

После сортировки значения поступают в:

  • Elasticsearch — для поиска по ключевым словам
  • Vespa — для семантического и векторного поиска

Это обеспечивает:

  • Логичный порядок фильтров
  • Консистентное отображение атрибутов на страницах товаров
  • Более точное ранжирование результатов поисковых систем
  • Интуитивное и плавное навигацию по категориям

Мощь сортировки атрибутов особенно проявляется в поиске, где согласованность — ключ к успеху.

Общий обзор системы: от исходных данных до пользовательского интерфейса

Чтобы запустить такую систему на миллионах SKU, я спроектировал модульную конвейерную архитектуру, основанную на фоновых задачах, AI-инференсе и интеграции поиска:

Поток данных:

  • Источник данных — система информации о товарах
  • Задачи извлечения атрибутов — получение значений и контекста категорий
  • Передача в сервис сортировки AI
  • Обновление документов товаров в Product MongoDB
  • Задачи синхронизации — обратная запись результатов в систему информации о товарах
  • Обновление индексов поиска в Elasticsearch и Vespa
  • API-сервисы связывают поисковые движки с клиентскими приложениями

Этот поток гарантирует, что каждое значение атрибута — будь то AI-отсортированное или ручное — отображается в поиске, на витрине и в конечном пользовательском опыте.

Практический эффект преобразования

Как хаотичные исходные значения превращаются в упорядоченные:

Атрибут Исходное хаотичное значение Отсортированный вывод
Размер XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Цвет RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020
Материал Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Значение 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Эти примеры показывают, как конвейер сочетает контекстное мышление с чёткими правилами для получения чистых, легко понимаемых последовательностей.

Почему выбирается офлайн, а не реальное время?

При использовании реального времени возникают риски:

  • Непредсказуемых задержек
  • Высоких затрат на вычисления
  • Хрупких зависимостей
  • Сложностей в эксплуатации

А офлайн-задачи обеспечивают:

  • Эффективность пакетной обработки
  • Асинхронные вызовы LLM
  • Логика повторных попыток и очереди мёртвых писем
  • Окна для ручной проверки
  • Полностью предсказуемые затраты

Это немного увеличивает задержку между вводом данных и отображением, но обеспечивает масштабируемую согласованность — то, что действительно ценят клиенты.

Влияние на бизнес

Результаты впечатляют:

  • Согласованность атрибутов у более чем 3 миллионов SKU
  • Предсказуемое числовое ранжирование с помощью детерминированных откатов
  • Гранулярный контроль продавцов через ручные теги
  • Более чистые страницы товаров и интуитивные фильтры
  • Повышение релевантности поиска
  • Рост доверия пользователей и конверсии

Это не только технологическая победа, но и улучшение пользовательского опыта и доходов.

Ключевые выводы

  • Гибридные конвейеры превосходят чистый AI при масштабах. Защитные барьеры важны.
  • Контекст значительно повышает точность LLM
  • Офлайн-задачи — основа пропускной способности и отказоустойчивости
  • Механизмы ручного вмешательства создают доверие и принятие
  • Чистый вход — залог надежного AI-выхода

Заключение

Сортировка значений атрибутов кажется простой задачей, но при обработке миллионов товаров она превращается в настоящую проблему. Объединив интеллектуальные возможности LLM с ясными правилами и контролем продавцов, можно превратить эту скрытую, но универсальную проблему в чистую, масштабируемую систему.

Это напоминание: самые большие победы часто достигаются в решении тех мелких, казалось бы, скучных задач — тех, что ежедневно появляются на каждой странице товара.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить