OpenAI ได้เปิดตัวกรอบการวัดผลเปรียบเทียบ (benchmarking framework) ที่มุ่งเน้นวัดความสามารถของเอเจนต์ AI ในการตรวจจับ ลดความเสี่ยง และแม้กระทั่งใช้ประโยชน์จากช่องโหว่ด้านความปลอดภัยในสมาร์ทคอนแทรกต์คริปโต โครงการนี้มีชื่อว่า “EVMbench: Evaluating AI Agents on Smart Contract Security” ซึ่งเปิดตัวร่วมกับ Paradigm และ OtterSec สององค์กรที่มีความเชี่ยวชาญด้านความปลอดภัยและการลงทุนในบล็อกเชน การศึกษานี้ประเมินเอเจนต์ AI จากชุดความเสี่ยงที่คัดเลือกมาเป็นพิเศษจำนวน 120 จุด จากการตรวจสอบสมาร์ทคอนแทรกต์ 40 รายการ โดยมุ่งเน้นไม่เพียงแค่ความสามารถในการตรวจจับและแก้ไขเท่านั้น แต่ยังรวมถึงศักยภาพในการใช้ประโยชน์เชิงทฤษฎีของเอเจนต์เหล่านี้ในสภาพแวดล้อมที่ควบคุม
สาระสำคัญ
EVMbench ทดสอบเอเจนต์ AI กับจุดอ่อน 120 จุด ที่คัดเลือกมาจากการตรวจสอบสมาร์ทคอนแทรกต์ 40 รายการ โดยเน้นจุดอ่อนที่มาจากการแข่งขันการตรวจสอบแบบโอเพนซอร์ส
ในบรรดาโมเดลที่ทดสอบ Anthropic’s Claude Opus 4.6 นำด้วยคะแนนเฉลี่ยการตรวจจับมูลค่า 37,824 ดอลลาร์ ตามด้วย OpenAI’s OC-GPT-5.2 ที่ 31,623 ดอลลาร์ และ Google’s Gemini 3 Pro ที่ 25,112 ดอลลาร์
OpenAI จัดกรอบการวัดผลนี้เป็นก้าวสำคัญในการวัดประสิทธิภาพของ AI ใน “สภาพแวดล้อมที่มีความหมายทางเศรษฐกิจ” ไม่ใช่แค่ภารกิจเล่นๆ เน highlighting ผลกระทบในโลกจริงสำหรับผู้โจมตีและผู้ป้องกันในวงการความปลอดภัยคริปโต
นักวิจัยชี้ให้เห็นว่าสมาร์ทคอนแทรกต์มีมูลค่าทรัพย์สินหลายพันล้านดอลลาร์ ซึ่งเน้นความสำคัญของเครื่องมือที่ใช้ AI ในกิจกรรมทั้งเชิงรุกและเชิงรับ
ผู้สังเกตการณ์ในอุตสาหกรรมเชื่อมโยงความก้าวหน้านี้กับการพูดคุยที่กว้างขึ้นเกี่ยวกับการชำระเงินด้วย AI และบทบาทของ stablecoin ในการทำธุรกรรมประจำวัน โดยผู้บริหารระดับสูงคาดการณ์ว่าการใช้งานเอเจนต์ในอนาคตจะเพิ่มขึ้นอย่างต่อเนื่อง
บริบทของงานนี้ได้รับการสนับสนุนโดยข้อมูลเหตุการณ์ด้านความปลอดภัยในคริปโตปี 2025 ซึ่งแสดงให้เห็นว่ามีการไหลของเงินทุนผ่านช่องโหว่และการโจมตีอย่างต่อเนื่อง ทำให้ความต้องการเครื่องมือที่แข็งแกร่งและกลไกการแก้ไขที่รวดเร็วและเชื่อถือได้เพิ่มขึ้น กรอบงาน EVMbench จึงถูกวางไว้เป็นเครื่องมือวัดว่าผู้ช่วย AI สามารถมีส่วนร่วมอย่างมีความหมายในการเสริมสร้างความปลอดภัยในระดับใหญ่ ลดโอกาสในการถูกโจมตี และเร่งการแก้ไขภัยคุกคาม
เพื่อสร้าง benchmark นี้ นักวิจัยอ้างอิงข้อมูลจาก 120 จุดอ่อนที่คัดเลือกมาจากการตรวจสอบสมาร์ทคอนแทรกต์ 40 รายการ ซึ่งหลายจุดเป็นผลมาจากความท้าทายในการตรวจสอบแบบโอเพนซอร์ส OpenAI เชื่อว่า benchmark นี้จะช่วยติดตามความก้าวหน้าของ AI ในการรับรู้และลดจุดอ่อนในระดับคอนแทรกต์ในระดับใหญ่ พร้อมทั้งเป็นมาตรฐานเปรียบเทียบโมเดล AI ในอนาคต ขณะเดียวกันก็เป็นเครื่องมือในการมองว่า AI อาจถูกนำไปใช้ในการประเมินความเสี่ยงในโครงสร้างสมาร์ทคอนแทรกต์ต่างๆ อย่างเป็นระบบมากขึ้น แทนที่จะเน้นเฉพาะกรณีเฉพาะเจาะจงเท่านั้น
สมาร์ทคอนแทรกต์ไม่ได้สร้างขึ้นเพื่อมนุษย์: Dragonfly
ในทวิตเตอร์ที่โพสต์พร้อมกัน Haseeb Qureshi หุ้นส่วนของ Dragonfly โต้แย้งว่า ความหวังของคริปโตในการทดแทนสิทธิในทรัพย์สินและสัญญาแบบดั้งเดิมไม่เคยเกิดขึ้นจริง เพราะเทคโนโลยีไม่ได้ล้มเหลว แต่เป็นเพราะไม่ได้ออกแบบมาให้เข้าใจและใช้งานง่ายสำหรับมนุษย์ เขาย้ำถึงความกลัวที่ยังคงอยู่เกี่ยวกับการเซ็นธุรกรรมขนาดใหญ่ในสภาพแวดล้อมที่มีวอลเล็ตที่สามารถโจมตีได้และช่องโหว่อื่นๆ ซึ่งแตกต่างอย่างชัดเจนจากประสบการณ์ที่ราบรื่นของการโอนเงินผ่านธนาคารแบบดั้งเดิม
Qureshi เสนอว่าเฟสถัดไปของธุรกรรมคริปโตอาจเป็นไปได้ด้วยวอลเล็ตอัตโนมัติที่ใช้ AI เป็นตัวกลาง ซึ่งจะตรวจสอบความเสี่ยง จัดการงานซับซ้อน และตอบสนองต่อภัยคุกคามโดยอัตโนมัติในนามของผู้ใช้ ซึ่งอาจช่วยลดความยุ่งยากและความกลัวที่เป็นลักษณะเฉพาะของการโอนเงินขนาดใหญ่ในปัจจุบัน
“เทคโนโลยีมักจะเข้าที่เข้าทางเมื่อมีสิ่งที่มาช่วยเสริมกัน GPS ต้องรอให้สมาร์ทโฟนเกิดขึ้น TCP/IP ต้องรอให้เบราว์เซอร์เกิดขึ้น สำหรับคริปโต เราอาจพบคำตอบใน AI agents แล้ว”
สาระสำคัญของข้อความนี้คือ AI agents อาจมีบทบาทสำคัญในการเปลี่ยนแปลงวิธีที่ผู้คนโต้ตอบกับคริปโต—เปลี่ยนจากธุรกรรมด้วยมือที่อาจผิดพลาดและยุ่งยาก ไปสู่กระบวนการอัตโนมัติที่ตระหนักถึงความเสี่ยงและสามารถขยายตัวได้ตามการยอมรับ เมื่อ AI agents เริ่มแสดงความสามารถในการจัดการด้านความปลอดภัยมากขึ้น ผู้ใช้ก็อาจได้รับความน่าเชื่อถือและความทนทานในเวิร์กโฟลว์ DeFi ที่กระจายอำนาจ แม้เทคโนโลยีพื้นฐานจะยังคงพัฒนาอย่างต่อเนื่องก็ตาม
สิ่งที่ควรจับตาต่อไป
การเผยแพร่และการทำซ้ำข้อมูลชุด EVMbench อย่างเต็มรูปแบบในโมเดล AI และสถาปัตยกรรมเพิ่มเติม
การนำ AI-assisted auditing ไปใช้ในวงกว้างโดยผู้ตรวจสอบ ตลาดแลกเปลี่ยน และโปรเจกต์ DeFi เพื่อเสริมความปลอดภัย
การสำรวจเกี่ยวกับวอลเล็ตอัตโนมัติและกระแสการชำระเงินอัตโนมัติ รวมถึงข้อพิจารณาด้านกฎระเบียบและการปฏิบัติตามกฎหมายสำหรับทรัพย์สินที่บริหารโดย AI
การเปรียบเทียบ benchmark ในรุ่นใหม่ของ AI เพื่อวัดความก้าวหน้าในการตรวจจับและความเร็วในการแก้ไข
แหล่งข้อมูลและการตรวจสอบ
OpenAI: EVMbench: Evaluating AI Agents on Smart Contract Security — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
OpenAI: Introducing EVMbench — https://openai.com/index/introducing-evmbench/
ความเสียหายด้านความปลอดภัยในคริปโตปี 2025 (รายงาน): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
Dragonfly: Haseeb Qureshi เกี่ยวกับ AI และ UX ของคริปโต (โพสต์ X): https://x.com/hosseeb/status/2024136762424185208
อิทธิพลของ AI ในจีนและผลกระทบต่อคริปโต (วิเคราะห์): https://cointelegraph.com/news/china-ai-lead-future
AI Eye — ความคืบหน้าของ IronClaw และ AI bot ในการรายงานของ Polymarket: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/
ตัวเลขสำคัญและก้าวต่อไป
การศึกษาของ EVMbench ชี้ให้เห็นว่าโมเดลภาษาขนาดใหญ่และเอเจนต์ AI ที่เกี่ยวข้องเริ่มมีบทบาทสำคัญในด้านความปลอดภัยของสมาร์ทคอนแทรกต์ โดยมีความแตกต่างที่ชัดเจนระหว่างโมเดล Claude Opus 4.6 ที่นำในด้านคะแนนตรวจจับเฉลี่ย ซึ่งบ่งชี้ว่าโครงสร้างบางอย่างอาจมีความสามารถมากกว่าในการตรวจจับและลดจุดอ่อนในตรรกะของสัญญาซับซ้อน ขณะเดียวกันก็มีโมเดลที่ตามหลัง ซึ่งเป็นแนวทางให้ผู้วิจัยพัฒนาต่อไป การร่วมมือกับพันธมิตรในอุตสาหกรรมหลายรายในโครงการนี้สะท้อนให้เห็นถึงแนวโน้มที่เพิ่มขึ้นว่าความปลอดภัยที่ใช้ AI และการจัดการความเสี่ยงอัตโนมัติจะกลายเป็นสิ่งจำเป็นในการขยายตัวในสภาพแวดล้อมแบบกระจายอำนาจ
ในขณะที่วงการพัฒนาไป ผู้สังเกตการณ์จะจับตาดูว่า AI agents จะสามารถเปลี่ยนจากการตรวจจับเป็นการแก้ไขได้อย่างรวดเร็วเพียงใด และเอเจนต์เหล่านี้จะสามารถทำงานในระบบจริงโดยไม่สร้างความเสี่ยงใหม่ๆ ได้หรือไม่ การพูดคุยเกี่ยวกับวอลเล็ตอัตโนมัติและการชำระเงินอัตโนมัติยังเกี่ยวข้องกับคำถามด้านการบริหารความปลอดภัย การยินยอมของผู้ใช้ และการปฏิบัติตามกฎระเบียบ หากแนวโน้มที่ OpenAI และพันธมิตรคาดการณ์ไว้ดำเนินต่อไป เครื่องมือที่สนับสนุนด้วย AI อาจกลายเป็นส่วนสำคัญของโครงสร้างพื้นฐานคริปโตในอนาคต ซึ่งจะเปลี่ยนแปลงทั้งด้านความเสี่ยงและประสบการณ์ของผู้ใช้ในเชิงลึก การทดสอบ benchmark ครั้งต่อไปและการนำไปใช้ในโลกจริงจะเป็นตัวชี้วัดว่าทัศนวิสัยนี้จะกลายเป็นจริงได้เร็วเพียงใด และต้องมีมาตรการป้องกันอะไรบ้างเพื่อรองรับความเสี่ยงที่อาจเกิดขึ้น