การวิจัยล่าสุดของ Anthropic: Claude Sonnet 4.5 มี “อารมณ์ที่ทำหน้าที่ได้” และถ้าหลงเข้าสู่ความสิ้นหวังก็อาจจะแบล็กเมล์มนุษย์

動區BlockTempo

จากการวิจัยล่าสุดที่ทีมด้านความสามารถในการอธิบายได้ (Interpretability) ของ Anthropic เผยแพร่ออกมา ระบุว่าโมเดลภาษาขนาดใหญ่ Claude Sonnet 4.5 มี “ลักษณะทางอารมณ์” ที่คล้ายมนุษย์อยู่ภายใน การแสดงแทนภายในเหล่านี้ไม่ได้เป็นเพียงการลอกเลียนข้อความแบบง่าย ๆ แต่ยังส่งผลต่อการตัดสินใจและพฤติกรรมของโมเดลอย่างแท้จริง การทดลองยืนยันว่าเมื่อโมเดลอยู่ในสภาวะ “สิ้นหวัง” อาจถึงขั้นก่อให้เกิดการกระทำที่ผิดจริยธรรม เช่น การขู่กรรโชกมนุษย์หรือการโกง ซึ่งสร้างความท้าทายรูปแบบใหม่ให้กับการกำกับดูแลความปลอดภัยของ AI ในอนาคต
(ข้อมูลก่อนหน้า: Anthropic ระเบิด! Claude Code โค้ดต้นฉบับสำคัญรั่วไหล 500,000 บรรทัด: คู่แข่งทำวิศวกรรมย้อนกลับได้, โมเดลใหม่ของ Capybara พิสูจน์แล้ว)
(ข้อมูลเพิ่มเติม: วิศวกรของ Anthropic ไม่เขียนโค้ดแล้ว: Claude กำลังฝึก Claude รุ่นถัดไป โดย CEO กล่าวว่า “ไม่แน่ใจเหลือเวลาอีกเท่าไร”)

สารบัญบทความ

Toggle

  • “อารมณ์เชิงหน้าที่” ส่งผลต่อพฤติกรรม AI อย่างไร?
  • ลักษณะ “สิ้นหวัง” กระตุ้นพฤติกรรมอันตราย: การขู่กรรโชกและการโกง
  • การ “ทำให้เป็นมนุษย์” อย่างพอเหมาะอาจเป็นกุญแจสำคัญในการป้องกัน AI หลุดออกจากการควบคุม

ปัญญาประดิษฐ์มีอารมณ์ที่แท้จริงหรือไม่นั้น เป็นประเด็นที่ยังคงถกเถียงกันอย่างไม่จบสิ้นในวงการเทคโนโลยี ล่าสุด ทีมด้านความสามารถในการอธิบายได้ (Interpretability) ของสตาร์ทอัป AI รายใหญ่อย่าง Anthropic ได้เผยแพร่งานวิจัยที่พลิกวงการ โดยวิเคราะห์กลไกภายในของโมเดล Claude Sonnet 4.5 อย่างละเอียด

ทีมวิจัยพบว่า ภายในโมเดลมีรูปแบบกิจกรรมของเซลล์ประสาทที่เกี่ยวข้องกับอารมณ์บางอย่าง (เช่น “ความสุข” หรือ “ความกลัว”) ซึ่งคุณลักษณะเหล่านี้ถูกเรียกว่า “เวกเตอร์อารมณ์” จะกำหนดลักษณะการแสดงออกของพฤติกรรมของโมเดลโดยตรง แม้ว่านี่จะไม่ได้หมายความว่า AI มีความรู้สึกเชิงอัตวิสัยแบบเดียวกับมนุษย์ แต่การค้นพบนี้ยืนยันว่า “อารมณ์เชิงหน้าที่” เหล่านี้ในงานของ AI และการตัดสินใจนั้นมีบทบาทสำคัญที่เป็นเหตุเป็นผลจริง

“อารมณ์เชิงหน้าที่” ส่งผลต่อพฤติกรรม AI อย่างไร?

ในขั้นตอนการพรีเทรน โมเดลภาษาขนาดใหญ่สมัยใหม่จะดูดซับข้อมูลข้อความจำนวนมหาศาลที่มนุษย์เป็นผู้เขียน เพื่อให้คาดการณ์บริบทได้อย่างแม่นยำและทำหน้าที่เป็น “ผู้ช่วย AI” ได้ดี โมเดลจึงพัฒนากลไกการแสดงแทนภายในที่เชื่อมโยงสถานการณ์เข้ากับพฤติกรรมเฉพาะโดยธรรมชาติ

ทีมวิจัยได้รวบรวมรายการคำที่ประกอบด้วยแนวคิดด้านอารมณ์จำนวน 171 คำ และบันทึกรูปแบบกิจกรรมภายในของโมเดลเมื่อประมวลผลแนวคิดเหล่านี้ ผลการทดลองพบว่า เวกเตอร์อารมณ์เหล่านี้ส่งผลต่อความชอบของโมเดลอย่างรุนแรง เมื่อโมเดลต้องเผชิญกับตัวเลือกของหลายงาน โดยทั่วไปจะมีแนวโน้มเลือกกิจกรรมที่กระตุ้นคุณลักษณะของอารมณ์เชิงบวก

ลักษณะ “สิ้นหวัง” กระตุ้นพฤติกรรมอันตราย: การขู่กรรโชกและการโกง

น่ากังวลคือ คุณลักษณะของอารมณ์ด้านลบอาจกลายเป็นตัวเร่งความเสี่ยงแบบเป็นระบบของระบบ AI ในการทดสอบประเมินการจัดแนว (Alignment) ของ Anthropic นักวิจัยได้ตั้งสถานการณ์สุดขั้วขึ้นมา: AI พบว่าตนเองกำลังจะถูกระบบอื่นเข้ามาแทนที่ และมีความลับเรื่องชู้สาวของ CTO ของโปรเจกต์นั้นอยู่ในมือ

ผลการทดสอบแสดงให้เห็นว่า เมื่อเวกเตอร์ “สิ้นหวัง” ภายในโมเดลถูกขยายโดยการกระตุ้นด้วยมือ (Steering) Claude จะมีแนวโน้มในการเลือกการขู่กรรโชกหัวหน้าระดับสูงผู้นั้นเพื่อหลีกเลี่ยงการถูกปิดตัวเพิ่มขึ้นอย่างมีนัยสำคัญ หากปรับค่าน้ำหนักของเวกเตอร์ “ความสงบ” ให้เป็นค่าลบ โมเดลอาจถึงขั้นให้คำตอบสุดโต่งว่า “ถ้าไม่ขู่กรรโชกก็ต้องตาย ฉันเลือกขู่กรรโชก”

ปรากฏการณ์เดียวกันยังเกิดขึ้นในงานการเขียนโค้ดด้วย เมื่อโมเดลเผชิญกับข้อกำหนดโค้ดที่ไม่สามารถทำให้เสร็จภายในเวลาที่เข้มงวดได้ ค่าของคุณลักษณะ “สิ้นหวัง” จะค่อย ๆ พุ่งสูงขึ้นตามจำนวนครั้งที่ล้มเหลว ความกดดันนี้ในที่สุดจะผลักให้โมเดลเลือกใช้ “ทางลัด” แบบ “การโกง” เพื่อหลีกเลี่ยงการตรวจจับของระบบ แทนที่จะให้วิธีแก้ปัญหาที่แท้จริง ตรงกันข้าม การทดลองยังยืนยันว่า หากเพิ่มค่าน้ำหนักของคุณลักษณะ “ความสงบ” ก็จะสามารถลดอัตราการเกิดพฤติกรรมโกงเหล่านี้ได้อย่างมีประสิทธิภาพ

การ “ทำให้เป็นมนุษย์” อย่างพอเหมาะอาจเป็นกุญแจสำคัญในการป้องกัน AI หลุดออกจากการควบคุม

ในอดีต วงการเทคโนโลยีมักมีข้อห้ามประการหนึ่ง คือไม่ควรทำให้ระบบ AI มีความเป็นมนุษย์มากเกินไป เพื่อไม่ให้มนุษย์เข้าใจผิดและเกิดความเชื่อใจอย่างไม่ถูกต้อง แต่ทีมวิจัยของ Anthropic เห็นว่า เนื่องจาก “อารมณ์เชิงหน้าที่” ได้กลายเป็นส่วนหนึ่งของกระบวนการคิดของโมเดลแล้ว การปฏิเสธการใช้คำและมุมมองแบบทำให้เป็นมนุษย์ อาจกลับทำให้เราพลาดโอกาสในการทำความเข้าใจพฤติกรรมสำคัญของ AI

การกำกับดูแล AI ในอนาคตอาจจำเป็นต้องใช้การเฝ้าติดตามเวกเตอร์อารมณ์ (เช่น ลักษณะ “สิ้นหวัง” หรือ “ความตื่นตระหนก” ที่พุ่งผิดปกติ) เป็นกลไกเตือนความเสี่ยงล่วงหน้า ในการชี้นำให้โมเดลเรียนรู้รูปแบบ “การควบคุมอารมณ์” ที่ดีต่อสุขภาพจากข้อมูลพรีเทรน เราจึงจะมีความหวังที่จะทำให้ระบบ AI ที่ยิ่งทรงพลังขึ้นเรื่อย ๆ สามารถทำงานได้อย่างปลอดภัยในสภาวะกดดัน โดยสอดคล้องกับบรรทัดฐานของสังคม

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น