大規模電子商務:軟體工程師如何系統性解決屬性混亂

排序產品屬性聽起來很簡單——直到你必須為三百萬個SKU執行此操作。電子商務系統的隱藏複雜性並不在於分散式搜尋或即時庫存等巨大挑戰。真正的支柱是資料一致性:尺寸、顏色、材質及其他產品屬性必須以精確且可預測的方式結構化。

這個問題是真實存在的。在實際的產品目錄中,可以看到混亂的值:尺寸如 “XL”、“Small”、“12cm”、“Large”、“M”、“S” 混合使用。顏色如 “RAL 3020”、“Crimson”、“Red”、“Dark Red”。材質如 “Steel”、“Carbon Steel”、“Stainless”、“Stainless Steel”。每一個不一致看似微不足道,但在數百萬產品中會形成系統性問題。篩選器運作不穩定,搜尋引擎的相關性降低,客戶體驗受到影響。

核心策略:具有明確規則的混合智慧

而非使用黑盒式AI,一位軟體工程師設計了一個受控的混合流程。目標不是神祕的自動化,而是一個同時具備以下特點的解決方案:

  • 可解釋
  • 可預測
  • 可擴展至數百萬資料集
  • 可由人類控制

此流程結合了大型語言模型(LLMs)的情境思考能力與確定性規則及商家控制。它能智能行事,但始終可追蹤——是有導引的AI,而非失控的AI。

離線處理取代即時:一個策略性決策

所有屬性處理都在背景作業中進行,而非在即時系統中。這是有意為之,因為在電子商務規模下的即時流程會導致:

  • 不可預測的延遲
  • 脆弱的依賴關係
  • 高昂的計算峰值
  • 操作不穩定

相較之下,離線作業提供:

  • 高吞吐量,透過批次處理而不影響即時系統
  • 更高的韌性,故障不會影響客戶流量
  • 透過在低流量時段進行定時處理來控制成本
  • 與產品頁面隔離的LLM延遲
  • 原子性、可預測的更新

這種客戶界面與資料處理流程的分離,在數百萬SKU的情況下尤為關鍵。

處理流程:從原始資料到智慧

在應用AI之前,會進行一個關鍵的預處理步驟:

  • 去除空白字符
  • 移除空值
  • 去重
  • 結構化分類上下文資訊

此步驟大幅降低雜訊,並顯著提升語言模型的思考能力。規則很簡單:乾淨的輸入=可靠的輸出。在大規模操作中,即使是微小的錯誤也會累積成問題。

接著,LLM服務會接收:

  • 清理後的屬性值
  • 用於提供上下文的分類麵包屑
  • 屬性元資料

藉由這些上下文,模型能辨識「Spannung」在電動工具中是數值型,「尺寸」在服裝中遵循標準尺寸,「顏色」可能符合RAL標準。回傳結果包括:

  • 按邏輯順序排序的值
  • 精煉的屬性名稱
  • 一個決策:確定性排序或情境排序

確定性備援:只在必要時使用AI

並非所有屬性都需要AI處理。流程會自動辨識哪些屬性較適合用確定性邏輯處理:

  • 數值範圍(更快、更可預測)
  • 單位值(2cm、5cm、12cm → 2cm、5cm、12cm、20cm)
  • 簡單數量(無歧義)

這樣可以減少不必要的LLM調用,提升系統效率。

人工控制與信任

每個分類都可以標記為 LLM_SORT (模型決定) 或 MANUAL_SORT (商家定義)。此雙重系統確保人類最終決策,同時由AI完成繁重工作。商家可以隨時覆蓋模型,無需中斷流程——這是建立信任的重要機制。

所有結果都會存入MongoDB資料庫,包括:

  • 排序後的屬性值
  • 精煉的屬性名稱
  • 分類相關的排序標籤
  • 產品相關的sortOrder欄位

方便後續檢查、覆蓋、重建與同步其他系統。

資料流程線:從原始資料到搜尋

排序完成後,資料會流入:

  • Elasticsearch,用於關鍵字搜尋,具有一致的篩選邏輯
  • Vespa,用於語義與向量搜尋

確保:

  • 篩選器按邏輯順序呈現
  • 產品頁面顯示一致的屬性
  • 搜尋引擎排名更精確
  • 客戶更直觀地瀏覽分類

架構概覽

模組化流程如下:

  1. 產品資料來自產品資訊系統
  2. 屬性擷取作業抽取值與分類上下文
  3. 這些資料傳送至AI排序服務
  4. 更新後的產品文件存入MongoDB
  5. 出站同步作業更新產品資訊系統
  6. Elasticsearch與Vespa同步作業將排序資料傳入搜尋系統
  7. API服務將搜尋系統與客戶端應用連結

此循環確保每個排序或手動設定的屬性值都能反映在搜尋、商品推廣與客戶體驗中。

實務成果

將原始值轉換為結構化輸出範例:

屬性 原始值 排序後輸出
尺寸 XL、Small、12cm、Large、M、S Small、M、Large、XL、12cm
顏色 RAL 3020、Crimson、Red、Dark Red Red、Dark Red、Crimson、RAL 3020(
材質 Steel、Carbon Steel、Stainless、Stainless Steel Steel、Stainless Steel、Carbon Steel
數值 5cm、12cm、2cm、20cm 2cm、5cm、12cm、20cm

這些範例展現了情境思考與明確規則的結合。

可衡量的影響

  • 超過3M+ SKU的屬性排序一致性
  • 透過確定性備援實現可預測的數值排序
  • 完整的商家控制,透過手動標記
  • 更乾淨的產品頁面與更直觀的篩選
  • 改善搜尋相關性與排名
  • 提升客戶信任與轉換率

核心結論

  • 混合流程在大規模上超越純AI
  • 上下文是LLM準確性的關鍵
  • 離線作業對於吞吐量與韌性至關重要
  • 人工覆蓋機制建立信任
  • 乾淨的輸入資料是可靠AI輸出的基礎

最大的一個學習點:電子商務中最重要的問題,往往不是那些轟動一時的,而是每天在每個產品頁面上持續存在的隱性挑戰。透過智慧的系統架構與混合AI方法,讓混亂變得系統化且具擴展性。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)