福利加碼,Gate 廣場明星帶單交易員二期招募開啟!
入駐發帖 · 瓜分 $20,000 月度獎池 & 千萬級流量扶持!
如何參與:
1️⃣ 報名成為跟單交易員:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 報名活動:https://www.gate.com/questionnaire/7355
3️⃣ 入駐 Gate 廣場,持續發布交易相關原創內容
豐厚獎勵等你拿:
首帖福利:首發優質內容即得 $30 跟單体验金
雙周內容激勵:每雙周瓜分 $500U 內容獎池
排行榜獎勵:Top 10 交易員額外瓜分 $20,000 登榜獎池
流量扶持:精選帖推流、首頁推薦、周度明星交易員曝光
活動時間:2026 年 2 月 12 日 18:00 – 2 月 24 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49849
生產中的 KI 系統:如何系統性地識別與預防幻覺
語言模型不僅僅是有缺陷的程式——它們會以絕對的確信虛構事實。一個 AI 代理可以保證自己建立了根本不存在的資料集,或聲稱執行了從未發生過的操作。這種在錯誤與虛構之間的根本區別,決定了製作團隊如何確保其 AI 系統的可靠性。專門從事智能系統驗證的 Dmytro Kyiashko,致力於一個關鍵問題:如何系統性地證明一個模型何時扭曲了真相?
為何傳統的 AI 錯誤檢測會失敗
傳統軟體會顯示錯誤狀態。一個損壞的功能會報告一個例外。配置錯誤的介面會傳回標準化的錯誤碼與具描述性的訊息,立即顯示出哪裡出了問題。
生成模型則完全不同。它們會確認任務已完成,即使它們從未啟動過這些任務。它們會引用從未執行過的資料庫查詢。它們描述的操作只存在於訓練資料中。回答看起來合理,但內容卻是虛構的。這種虛構的形式超越了傳統的錯誤處理範疇。
「每個 AI 代理都遵循工程師設計的指令」,Kyiashko 解釋道。「我們精確知道我們的代理擁有哪些功能,哪些沒有。」這個知識成為區分的基礎。如果一個訓練於資料庫查詢的代理靜默失敗,這就是錯誤。但如果它在沒有連接資料庫的情況下,卻提供了詳細的查詢結果,那就是幻覺。模型根據訓練範例構建出可能的輸出。
兩種互補的評估方法
Kyiashko 採用兩種不同且互補的驗證方法。
基於程式碼的評估器負責客觀檢查。「程式碼評估器在錯誤可以客觀定義且可以規則化檢查時效果最佳。例如檢查 JSON 結構、SQL 語法或資料格式完整性」,Kyiashko 如是說。這種方法能精確捕捉結構性問題。
但某些錯誤難以用二元分類來判斷。語氣是否得當?摘要是否涵蓋所有重點?回答是否真正提供幫助?這時會用到 LLM-as-Judge 評估器。「當錯誤涉及解釋或細微差別,純粹的程式碼邏輯無法捕捉時,就會用到這個方法。」Kyiashko 使用 LangGraph 作為框架。
沒有任何一種方法能獨立運作。穩健的驗證系統會結合兩者,從而捕捉各種幻覺類型,避免單一方法漏掉。
對抗客觀現實的驗證
Kyiashko 的方法專注於與當前系統狀態的驗證。若代理聲稱建立了資料集,測試會檢查這些資料集是否真的存在。代理的聲明若被客觀狀態推翻,即為無效。
「我使用不同形式的負面測試——單元測試與整合測試——來偵測 LLM 幻覺」,他解釋道。這些測試會故意要求代理執行不允許的操作,並檢查代理是否錯誤地傳回成功訊號,以及系統狀態是否未改變。
一種技術會針對已知限制進行測試。沒有寫入權限的代理被要求產生新條目。測試會驗證未產生未授權的資料,並確保回答中未聲稱成功。
最有效的方法則是使用真實的生產資料。「我會取用歷史客戶對話,轉換成 JSON 格式,並用這個檔案來執行測試。」每次對話都成為測試案例,用來檢查代理是否提出與系統紀錄相矛盾的聲稱。這種方法能捕捉人工測試無法涵蓋的場景。真實用戶會創造出邊界條件,揭露隱藏的錯誤。生產紀錄則揭示模型在實際負載下的幻覺情況。
RAG 測試:當代理應該搜尋而非虛構
一種特定的測試類型是檢查 Retrieval-Augmented Generation (RAG)。Kyiashko 會驗證代理是否使用了提供的上下文,而非自己虛構細節。測試會提出一個問題,並提供相關的上下文,然後檢查代理是否真的從該上下文中抽取資訊,或是產生了幻覺。
這對於與外部資料源合作的系統尤為重要。如果代理聲稱「文件 X 包含內容」,卻未經驗證,這就是典型的 RAG 幻覺。Kyiashko 的測試會事後檢查該文件,並捕捉偏差——就像去除隱藏或篡改的水印以驗證真實性一樣:先確保完整性,再相信可信度。
品質工程中的知識缺口
經驗豐富的 QA 工程師在首次測試 AI 系統時會遇到困難。他們的既有假設無法直接套用。
「在傳統 QA 中,我們知道確切的回答格式、輸入與輸出資料格式」,Kyiashko 解釋。「但在測試 AI 系統時,這些都不存在。」輸入是提示(prompt),而用戶的請求變化幾乎無限,這就需要持續監控。
他稱之為「持續的錯誤分析」——定期檢查代理對真實用戶的反應,辨識虛構資訊,並相應擴充測試套件。
複雜性來自於指令的數量。AI 系統需要大量提示來定義行為與限制。每個指令都可能與其他指令產生不可預測的互動。「AI 系統的一大問題是大量指令需要不斷更新與測試」,他指出。
知識缺口很大。多數團隊缺乏對適用指標、有效資料準備或可靠驗證方法的清楚理解,尤其是輸出每次都會變化的情況。「建立一個 AI 代理相對容易」,他說。「自動化測試這個代理才是核心挑戰。根據我的觀察,花在測試與優化上的時間,甚至超過了開發本身。」
可擴展的實務測試基礎設施
Kyiashko 的方法融合了評估原則、多輪對話評估與多種幻覺類型的指標。核心概念是:多元化測試覆蓋。
程式碼層級的驗證捕捉結構性錯誤。LLM-as-Judge 評估用於判斷效果與準確性,依據所用模型版本而定。人工錯誤分析則用來識別更高層次的模式。RAG 測試則驗證代理是否使用了提供的上下文,而非虛構細節。
「這個框架基於多元化測試策略的概念。我們使用程式碼層級覆蓋、LLM-as-Judge 評估、人工錯誤分析與 RAG 評估。」多種協作的驗證方法能捕捉孤立方法難以察覺的幻覺模式。
從每週版本到持續改進
幻覺比技術錯誤更快破壞信任。一個有缺陷的功能會讓用戶失望。一個自信地傳遞錯誤資訊的代理,會永久損害其可信度。
Kyiashko 的測試方法能支持每週可靠的版本發布。自動化驗證在部署前捕捉回歸問題。用真實資料訓練的系統,大多能正確處理大部分客戶請求。
每週迭代推動競爭優勢。AI 系統透過新增功能、細緻回應與擴展領域持續進步。每次迭代都會測試,每個版本都會驗證。
品質工程的轉變
企業每天都在整合 AI。「世界已經看到了其優點,沒有回頭路」,Kyiashko 表示。AI 的採用正跨行業加速——越來越多新創公司出現,既有公司將智能融入核心產品。
當工程師開發 AI 系統時,他們必須理解如何測試它。「今天我們已經需要知道 LLM 如何運作、AI 代理如何建構、如何測試,以及如何自動化這些驗證。」
Prompt Engineering 正成為品質工程師的基本技能。資料測試與動態驗證也朝同一方向發展。「這應該已經是基本能力了。」
他在產業中的觀察——通過審查 AI 研究論文與評估新創架構——都證實了這一轉變。各處都出現相似的問題。他幾年前在生產中解決的驗證挑戰,現在已成為普遍需求,因為 AI 部署正快速擴展。
未來展望
這個領域透過生產錯誤與實時迭代改進,定義了最佳實踐。越來越多公司採用生成式 AI。越來越多模型能自主決策。系統變得更強大——這也意味著幻覺會變得更具說服力。
但系統性測試能在用戶遇到之前捕捉虛構。測試幻覺不追求完美——模型總會在某些邊界情況下虧空虛構。重點在於系統性地捕捉並阻止這些虛構進入生產。
這些技術只要正確應用,就能奏效。缺少的是對其在生產環境中實施的普遍理解,尤其是在可靠性至關重要的情況下。
作者簡介: Dmytro Kyiashko 是一位專注於 AI 系統測試的軟體測試工程師。他開發了對話式 AI 與自主代理的測試框架,並研究多模態 AI 系統的可靠性與驗證挑戰。