Масштабування електронної комерції: як штучний інтелект керовані конвеєри підтримують послідовність атрибутів продукту

В електронній комерції часто обговорюють великі технічні виклики, такі як розподілені пошукові запити, управління запасами у реальному часі та системи рекомендацій. Однак за лаштунками прихована вперта систематична проблема, яка турбує продавців у всьому світі: управління та нормалізація значень атрибутів продукту. Ці значення формують фундамент відкриття продукту. Вони безпосередньо впливають на фільтри, функції порівняння, ранжування пошуку та логіку рекомендацій. У реальних каталогах такі значення рідко є послідовними. Часто трапляються дублікати, помилки форматування або семантична багатозначність.

Простий приклад ілюструє масштаб проблеми: у позначенні розміру можуть існувати одночасно “XL”, “Small”, “12cm”, “Large”, “M” і “S”. У кольорах значення можуть бути “RAL 3020”, “Crimson”, “Red” і “Dark Red” — стандарти, такі як RAL 3020, змішуються з вільними описами без контролю. Помноживши цю неузгодженість на кілька мільйонів SKU, стає очевидною глибина проблеми. Фільтри стають ненадійними, пошукові системи втрачають точність, ручне очищення даних перетворюється на роботу Сізфуса, а клієнти стикаються з розчаруванням у відкритті продуктів.

Основна стратегія: інтелект із керівними рамками

Чисте рішення на основі чорної скриньки AI не підходило. Такі системи важко зрозуміти, налагоджувати та контролювати при мільйонах SKU. Замість цього метою була передбачувана, пояснювана та керована людиною конвеєрна лінія — AI, яка діє розумно, не втрачаючи контроль.

Відповідь полягала у гібридній архітектурі, яка поєднує контекстуальний LLM-інтелект із детерміністичними правилами та контролем продавця. Система мала відповідати трьом критеріям:

  • відстежуваність рішень
  • передбачуваність процесів
  • можливість втручання людини у критичних даних

Офлайн-обробка замість потокових систем у реальному часі

Ключовим архітектурним кроком було вибір офлайн-завдань у фоновому режимі замість потокових систем у реальному часі. Спочатку це здається кроком назад, але стратегічно виправдано:

Системи у реальному часі спричиняють непередбачувані затримки, крихкі залежності, дорогі піки обчислень і підвищену вразливість. Офлайн-завдання ж пропонують:

  • Продуктивність: обробляють великі обсяги даних без навантаження на живу систему
  • Надійність: помилки обробки ніколи не впливають на клієнтський трафік
  • Оптимізація витрат: обчислення можна планувати у часи низької активності
  • Ізоляція: затримка LLM не впливає на продуктивність сторінки продукту
  • Передбачуваність: оновлення відбуваються атомарно та відтворювано

При мільйонах записів у каталозі така декупляція від клієнтських систем і систем обробки даних є необхідною.

Очистка даних як основа

Перед застосуванням AI був важливий етап попередньої обробки для усунення шуму. Модель отримувала лише чисті, ясні вхідні дані:

  • нормалізація пробілів (початкові та кінцеві пробіли)
  • видалення порожніх значень
  • усунення дублікатів значень
  • спрощення контексту категорій (перетворення breadcrumb у структуровані рядки)

Цей, здавалося б, простий крок значно покращив точність мовної моделі. Принцип залишається універсальним: при такій кількості даних навіть невеликі помилки введення можуть згодом спричинити каскад проблем.

Контекстуальна обробка LLM

Модель не виконувала механічного сортування. За достатнього контексту вона могла застосовувати семантичне міркування:

Модель отримувала:

  • очищені значення атрибутів
  • метадані категорій (наприклад, “Електроінструменти”, “Одяг”, “Обладнання”)
  • класифікацію атрибутів

З цим контекстом модель розуміла:

  • що “напруга” у електроінструментах має сортуватися числовим порядком
  • що “розмір” у одязі слідує встановленій прогресії (S, M, L, XL)
  • що “колір” у певних категоріях дотримується стандартів, таких як RAL 3020
  • що “матеріал” має семантичні ієрархії

Модель повертала:

  • впорядкований список значень
  • уточнені описи атрибутів
  • класифікацію: детерміністичне або контекстуальне сортування

Це дозволяло конвеєру гнучко обробляти різні типи атрибутів, не прописуючи для кожної категорії фіксовані правила.

Детерміністична логіка fallback

Не кожен атрибут потребував AI. числові діапазони, одиниці вимірювання та прості кількості вигідно обробляти за допомогою:

  • швидшої обробки
  • гарантійної передбачуваності
  • нижчих витрат
  • усунення багатозначності

Конвеєр автоматично розпізнавав такі випадки і застосовував детерміністичну логіку сортування. Це зберігало ефективність і зменшувало кількість викликів LLM.

Контроль людини через системи тегування

Для критичних атрибутів продавці мали остаточне слово. Кожна категорія могла мати теги:

  • LLM_SORT: мовна модель визначає порядок
  • MANUAL_SORT: продавець явно задає порядок

Ця двовекторна система працювала двічі краще: AI автоматизувала рутинну роботу, а люди зберігали контроль. Це створювало довіру і дозволяло при необхідності переозначати рішення моделі без перерв у обробці.

Збереження у централізованій базі даних

Усі результати зберігалися безпосередньо у MongoDB, що робило архітектуру простою та підтримуваною:

MongoDB став оперативним сховищем для:

  • впорядкованих значень атрибутів
  • уточнених назв атрибутів
  • категорійних тегів сортування
  • метаданих сортувальних полів продукту

Це забезпечувало легку перевірку, цілеспрямоване переписування значень, повторну обробку категорій і безшовну синхронізацію з зовнішніми системами.

Інтеграція з пошуковою інфраструктурою

Після нормалізації значення потрапляли у два пошукові системи:

  • Elasticsearch: для ключової фільтрації та фасетного пошуку
  • Vespa: для семантичного та векторного пошуку продуктів

Ця дуальність забезпечувала:

  • логічне та очікуване представлення фільтрів
  • послідовні атрибути на сторінках продуктів
  • більш точне ранжування продуктів пошуковими системами
  • інтуїтивний досвід користувача

Саме пошуковий рівень є найвидимішим і найціннішим для бізнесу місцем для атрибутної консистентності.

Практичні результати трансформації

Конвеєр перетворював хаотичні сирі значення у структуровані виходи:

Атрибут Сирі значення Нормалізований вивід
Розмір XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Колір RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020
Матеріал Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Числові 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Особливо у кольорових атрибутах стала очевидною важливість контекстуалізації: система розпізнала, що RAL 3020 — стандарт кольору, і розмістила його логічно між семантично схожими значеннями.

Архітектурний огляд системи

Модульна конвеєрна лінія координувала наступні кроки:

  1. Витяг продуктових даних із системи PIM (Product Information Management)
  2. Відокремлення значень атрибутів і контексту категорій через завдання витягу атрибутів
  3. Передача очищених даних до сервісу сортування AI
  4. Запис оновлених документів продукту у MongoDB
  5. Завдання синхронізації для оновлення вихідної системи PIM
  6. Завдання синхронізації Elasticsearch і Vespa для оновлення індексів
  7. API-шари з’єднують пошукові системи з клієнтськими додатками

Цей робочий процес гарантував, що кожне нормалізоване значення атрибуту — будь то від AI або вручну — послідовно відображалося у пошуку, мерчендайзингу та досвіді користувача.

Чому офлайн-обробка була правильним вибором

Потокові системи у реальному часі спричиняли б затримки, підвищені обчислювальні витрати та крихкі залежності. Офлайн-завдання дозволяли:

  • ефективну пакетну обробку
  • асинхронні виклики LLM без тиску у реальному часі
  • надійні механізми повтору та черги помилок
  • час для людської валідації
  • передбачувані обчислювальні витрати

Це означало невелику затримку між збором даних і їх відображенням, але перевага — надійність у масштабі — цінна для клієнтів.

Бізнесові та технічні наслідки

Рішення дало вимірювані результати:

  • послідовна сортування атрибутів понад 3 мільйони SKU
  • передбачуване сортування числових значень через детерміністичні fallback-и
  • децентралізований контроль продавця через ручне тегування
  • чисті сторінки продуктів і інтуїтивні фільтри
  • покращена релевантність пошуку та точність ранжування
  • підвищена довіра клієнтів і конверсія

Це був не лише технічний проект; це був безпосередній вплив на досвід користувача та зростання доходів.

Основні висновки для масштабування продукту

  • Гібридні системи перевершують чистий AI у масштабі. Керівні рамки та контрольні механізми — обов’язкові.
  • Контекст — мультиплікатор точності LLM. Чисті, релевантні категоріям вхідні дані забезпечують надійні виходи.
  • Офлайн-обробка — не компроміс, а архітектурна необхідність для пропускної здатності та стійкості.
  • Можливість людського переозначення створює довіру. Системи, якими можуть керувати люди, швидше приймаються.
  • Якість даних на вході визначає надійність на виході. Очистка — не накладні витрати, а основа.

Підсумкове міркування

Нормалізація значень атрибутів здається простою проблемою — доки не потрібно вирішити її для мільйонів товарних варіантів. Завдяки поєднанню інтелекту мовних моделей із детерміністичними правилами та механізмами контролю продавця, було перетворено приховану, вперту проблему у елегантну, підтримувану систему.

Це нагадує: деякі з найцінніших технічних перемог виникають не з блискучих інновацій, а з систематичного вирішення непомічених проблем — тих, що щодня впливають на кожну сторінку продукту, але рідко отримують увагу.

VON0,76%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити