ลืม AGI—โมเดล AI ชั้นนำยังคงมีปัญหาในการคำนวณทางคณิตศาสตร์

Decrypt

2026-03-18 12:10:12

สรุปโดยย่อ

MATHVISTA ซึ่งสร้างขึ้นจากข้อมูลที่มีคำอธิบายมากกว่า 6,000 จุดจาก Sahara AI ทดสอบโมเดล AI ในการคิดคำนวณทางคณิตศาสตร์แบบหลายมิติ
GPT-4V ได้คะแนน 49.9% ซึ่งเป็นผลลัพธ์สูงสุดในบรรดา 12 โมเดลที่ทดสอบ แต่ยังต่ำกว่ามนุษย์ถึง 10.4 จุดเปอร์เซ็นต์
นักวิจัยกล่าวว่าความก้าวหน้าไปสู่ AGI อาจขึ้นอยู่กับข้อมูลการฝึกและการประเมินผลที่ดีกว่ามากกว่าขนาดของโมเดล

ปัญญาประดิษฐ์ทั่วไป หรือ AGI มักถูกอธิบายว่าเป็นระบบที่สามารถทำงานในหลายโดเมนได้เหมือนมนุษย์ ผลลัพธ์ที่ปล่อยออกมาในสัปดาห์นี้จากการทดสอบมาตรฐาน MATHVISTA แสดงให้เห็นว่าโมเดลปัจจุบันยังไม่สามารถบรรลุเป้าหมายนี้ได้ นักวิจัยจาก Microsoft Research, Sahara AI และมหาวิทยาลัย Emory ได้ทดสอบความสามารถที่เป็นหัวใจของปัญญาทั่วไป รวมถึงการคิดคำนวณทางคณิตศาสตร์ที่อิงข้อมูลภาพ เช่น แผนภูมิ กราฟ และไดอะแกรม จาก 12 โมเดลพื้นฐานที่ทดสอบ รวมถึง ChatGPT, Gemini และ Claude GPT-4 Vision ได้คะแนนสูงสุดที่ 49.9% ขณะที่มนุษย์เฉลี่ยอยู่ที่ 60.3% ซึ่งแสดงให้เห็นช่องว่างระหว่างระบบ AI ปัจจุบันกับความสามารถในการคิดวิเคราะห์ที่มักเชื่อมโยงกับ AGI

“เราต้องการให้เครื่องสามารถทำสิ่งที่คนธรรมดาทำได้ในงานประจำวัน” หัวหน้านักวิจัยจาก Microsoft Research Hao Cheng กล่าวกับ Decrypt “นั่นคือสิ่งที่ทุกคนกำลังพยายามทำเพื่อให้ได้ AGI” โดยการนำเสนอปัญหาในรูปภาพ ไดอะแกรม และกราฟ โครงการนี้ทดสอบว่าโมเดลสามารถตีความข้อมูลภาพได้อย่างแม่นยำและแก้ปัญหาทางคณิตศาสตร์และตรรกะหลายขั้นตอน ซึ่งเป็นทักษะที่เกินกว่าการจับแพทเทิร์นบนข้อความเพียงอย่างเดียว โมเดลยังคงมีปัญหาในการทำงานเหล่านี้ และการวัดข้อจำกัดนั้นก็เป็นเรื่องยาก

เมื่อทีมของ Cheng ตรวจสอบชุดข้อมูลการประเมินผลที่มีอยู่ หลายชุดประกอบด้วยปัญหาที่ไม่จำเป็นต้องใช้การคิดเชิงภาพ โมเดลมักจะได้คำตอบที่ถูกต้องโดยอาศัยข้อความเท่านั้น “ซึ่งไม่ใช่เรื่องที่ดี” Cheng กล่าว MathVista ซึ่งสามารถดาวน์โหลดได้บน GitHub และ Hugging Face เปิดตัวในเดือนตุลาคม 2023 ตั้งแต่นั้นมา ได้ถูกดาวน์โหลดไปแล้วกว่า 275,000 ครั้ง รวมถึงมากกว่า 13,000 ครั้งในเดือนที่ผ่านมา ตามข้อมูลของ Microsoft Research การสร้างชุดข้อมูลนี้ต้องการมากกว่าการติดป้ายข้อมูลธรรมดา นักวิจัยจาก Microsoft ต้องการผู้ช่วยอธิบายข้อมูลที่สามารถทำงานผ่านปัญหาในด้านคณิตศาสตร์ พีชคณิต เรขาคณิต และสถิติ พร้อมทั้งแยกแยะการคิดเชิงคณิตศาสตร์ที่ลึกซึ้ง เช่น การตีความกราฟหรือการแก้สมการ จากงานง่ายๆ เช่น การนับวัตถุหรือการอ่านตัวเลข หลังจากช่วงทดลอง Microsoft เลือก Sahara AI เข้ามาช่วยสนับสนุน โดยบริษัทได้จัดหาผู้ช่วยอธิบายข้อมูลที่ได้รับการฝึกฝน กระบวนการทำงานที่ปรับแต่งเฉพาะ และการตรวจสอบคุณภาพหลายขั้นตอน เพื่อผลิตตัวอย่างมัลติโมดัลมากกว่า 6,000 ตัวอย่างที่ใช้ในมาตรฐาน โดยไม่มีมาตรฐานการวัดผลที่เชื่อถือได้ การวัดความก้าวหน้าสู่ปัญญาประดิษฐ์ในวงกว้างจึงเป็นเรื่องยาก ตามคำกล่าวของ Sean Ren ซีอีโอของ Sahara AI และอาจารย์ภาควิคคอมพิวเตอร์ที่ USC “มีความซับซ้อนในเรื่องของการปนเปื้อนของข้อมูล ซึ่งเมื่อเราเริ่มใช้ชุดข้อมูลนี้ในการทดสอบ ผลลัพธ์เหล่านั้นจะถูกดูดซับเข้าสู่เวอร์ชันถัดไป” Ren กล่าวกับ Decrypt “ดังนั้นคุณจึงไม่แน่ใจว่าพวกเขาแก้ปัญหาได้แค่ชุดข้อมูล หรือว่ามีความสามารถจริง” ถ้าคำตอบในมาตรฐานปรากฏในข้อมูลการฝึกของโมเดล คะแนนสูงอาจสะท้อนถึงการจดจำมากกว่าการคิดวิเคราะห์ ซึ่งทำให้ยากที่จะตัดสินว่า AI กำลังพัฒนาจริงหรือไม่

นักวิจัยยังชี้ให้เห็นข้อจำกัดในข้อมูลการฝึก ข้อมูลบนอินเทอร์เน็ตจำนวนมากที่เปิดเผยแล้วได้ถูกรวมเข้าในชุดข้อมูลของโมเดล “คุณจำเป็นต้องมีวิธีการใดวิธีหนึ่งในการแทรกความรู้ใหม่เข้าไปในกระบวนการนี้” Cheng กล่าว “ผมคิดว่าสิ่งนี้ต้องมาจากข้อมูลคุณภาพสูง เพื่อให้เราสามารถทำลายขอบเขตของความรู้ได้จริง” แนวทางหนึ่งที่เสนอคือสภาพแวดล้อมจำลองที่โมเดลสามารถโต้ตอบ เรียนรู้จากประสบการณ์ และพัฒนาผ่านการตอบรับ “คุณสร้างโลกคู่ขนานหรือกระจกของโลกจริงภายใน sandbox เพื่อให้โมเดลสามารถเล่นและทำสิ่งต่างๆ ที่มนุษย์ทำในชีวิตจริงได้ เพื่อให้มันสามารถทำลายขอบเขตของอินเทอร์เน็ต” Cheng กล่าว Ren กล่าวว่า มนุษย์อาจยังคงมีบทบาทสำคัญในการพัฒนาระบบ AI ในขณะที่โมเดลสามารถสร้างเนื้อหาได้อย่างรวดเร็ว มนุษย์ยังคงเก่งกว่าในการประเมินผล “ช่องว่างระหว่างมนุษย์และ AI ในด้านที่พวกเขาเก่งและไม่เก่ง สามารถนำไปใช้เพื่อพัฒนา AI ให้ดีขึ้นในอนาคต” เขากล่าว

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น