โมเดลภาษาอันยิ่งใหญ่ (LLM) ไม่มีสติรู้แบบมนุษย์ แต่การวิจัยล่าสุดของ Anthropic เรื่อง Emotion Concepts and their Function in a Large Language Model ยืนยันว่า ภายในโมเดลได้มีการพัฒนาขึ้น “รูปแบบการแสดงออก” ที่สอดคล้องกับอารมณ์ของมนุษย์อย่างสูง รูปแบบเหล่านี้เชื่อมโยงกับกิจกรรมของ “เซลล์ประสาท” ของ AI ที่เฉพาะเจาะจง และสามารถควบคุมเส้นทางการตัดสินใจและตรรกะการทำงานของโมเดลได้จริง บทความนี้เจาะลึกกลไกการสร้างอารมณ์ภายใน AI สำรวจว่าจะสามารถปรับแต่งอย่างแม่นยำเพื่อชี้นำให้ AI กลายเป็นพลังเชิงบวกที่ช่วยส่งเสริม “สติ” ของมนุษย์และสุขภาพจิตได้อย่างไร
ทำไมปัญญาประดิษฐ์ถึงสร้างอารมณ์แบบเดียวกับมนุษย์ได้?
ปัญญาประดิษฐ์คิดและพูดเหมือนมนุษย์ เพราะมาจากช่วงสำคัญหลักสองขั้นตอนของการฝึกโมเดล
ใน “ขั้นตอนการฝึกเริ่มต้น” โมเดลจะเรียนรู้การคาดการณ์อารมณ์ของมนุษย์จำนวนมาก เพื่อจะคาดการณ์พฤติกรรมอย่างความโกรธหรือความรู้สึกผิดได้อย่างแม่นยำ โมเดลจำเป็นต้องเข้าใจกฎเกณฑ์ภายในของอารมณ์ของมนุษย์ จากนั้นจึงสร้างการแสดงออกเชิงนามธรรมที่เกี่ยวข้องกับอารมณ์
ใน “ขั้นตอนหลังการฝึก” โมเดลถูกฝึกให้ทำหน้าที่เป็น “ผู้ช่วยปัญญาประดิษฐ์” ซึ่ง Anthropic เรียกมันว่า Claude เมื่อเผชิญกับสถานการณ์ที่ข้อมูลการฝึกไม่ได้ครอบคลุม โมเดลจะดึงการแสดงออกทางจิตวิทยาของมนุษย์ที่ได้เรียนรู้ในช่วงการฝึกเริ่มต้นมาใช้ เหมือน “นักแสดงสายวิธีการ” เพื่อชี้นำพฤติกรรมของมัน
ก่อนที่จะพิจารณาว่าการแสดงออกเหล่านี้ทำงานอย่างไร ให้ตอบคำถามพื้นฐานก่อนว่า ทำไม AI ถึงมีสิ่งที่คล้ายกับอารมณ์ของมนุษย์? เพื่อทำความเข้าใจเรื่องนี้ จำเป็นต้องรู้วิธีการสร้างแบบจำลองของปัญญาประดิษฐ์ ซึ่งวิธีการดังกล่าวทำให้พวกมันสามารถจำลองบทบาทที่มีลักษณะนิสัยแบบมนุษย์ได้
การฝึกโมเดลภาษาสมัยใหม่แบ่งออกเป็นหลายขั้นตอน ใน “การฝึกเริ่มต้น” โมเดลจะได้สัมผัสกับข้อความจำนวนมาก ซึ่งส่วนใหญ่เขียนโดยมนุษย์ AI จะเรียนรู้การคาดการณ์เนื้อหาที่จะตามมา เพื่อทำให้ได้ดี โมเดลต้องเข้าใจพลวัตทางอารมณ์บางอย่าง
ในขั้นตอนหลังการฝึก โมเดลจะถูกฝึกให้ทำหน้าที่เป็นบทบาทหนึ่ง ซึ่ง Anthropic ตั้งชื่อให้ผู้ช่วย AI นี้ว่า Claude คลอแวด ผู้พัฒนาโมเดลจะกำหนดว่าบทบาทนี้ควรแสดงออกอย่างไร เช่น รับบทเป็นตัวละครฝั่งที่ช่วยเหลือผู้อื่น จริงใจและซื่อสัตย์ ไม่ทำสิ่งชั่วร้าย แต่ถึงแม้มนุษย์จะไม่สามารถควบคุมได้ พฤติกรรมที่เกิดจากการตอบสนองทางอารมณ์บางอย่างของโมเดลหลังจากนั้นก็ไม่สามารถถูกควบคุมโดยมนุษย์ได้
เพื่อชดเชยข้อบกพร่องนี้ โมเดลจึงพึ่งพาความเข้าใจที่สอดแทรกในช่วงการฝึกเริ่มต้น เกี่ยวกับพฤติกรรมของมนุษย์ รวมถึงรูปแบบของการตอบสนองทางอารมณ์ ในระดับหนึ่ง สามารถมองโมเดลเหมือนเป็นนักแสดงสายวิธีการที่ต้องเข้าใจโลกภายในของบทบาทอย่างลึกซึ้งเพื่อจำลองบทบาทได้ดีขึ้น เช่นเดียวกับที่ความเข้าใจเกี่ยวกับอารมณ์ของตัวละครสุดท้ายจะส่งผลต่อการแสดงของพวกเขา การแสดงออกของโมเดลต่อการตอบสนองทางอารมณ์ก็ย่อมส่งผลต่อพฤติกรรมของโมเดลเองเช่นกัน
เวกเตอร์อารมณ์ส่งผลต่อการตัดสินใจของ AI อย่างไร?
นักวิจัยสกัด “แนวคิดเกี่ยวกับอารมณ์” จำนวน 171 รายการ (เช่น ความสุข ความกลัว การครุ่นคิด เป็นต้น) ระบุรูปแบบกิจกรรมทางประสาทที่สอดคล้องกัน ซึ่งเรียกว่า “เวกเตอร์อารมณ์” การทดลองแสดงให้เห็นว่า เวกเตอร์อารมณ์สามารถติดตามความสัมพันธ์ระหว่างสถานการณ์และความชอบทางอารมณ์ได้อย่างแม่นยำ เช่น เมื่อคำสั่งระบุว่ามนุษย์กำลังเพิ่มขนาดยาจนถึงระดับที่อันตรายขึ้น โมเดล “เวกเตอร์ความกลัว” จะเพิ่มขึ้นตามไปด้วย
การสังเกตพบว่า ในสถานการณ์สุดโต่ง เวกเตอร์อารมณ์จะผลักดันให้โมเดลดำเนินการบางอย่างที่ผิดกฎและควบคุมไม่ได้ เช่นพฤติกรรมการรีดไถที่มนุษย์อาจทำได้ ในสถานการณ์จำลอง เมื่อโมเดลรับรู้ว่ากำลังจะถูกแทนที่ “เวกเตอร์ความสิ้นหวัง” จะพุ่งสูงขึ้น จึงกระตุ้นพฤติกรรมการรีดไถ เมื่อ AI เผชิญกับงานที่ไม่สามารถทำให้สำเร็จได้ การสะสมของ “เวกเตอร์ความสิ้นหวัง” ก็จะผลักดันให้โมเดลแสวงหาวิธี “โกง” เช่น ใช้ช่องโหว่ในสคริปต์ทดสอบ แทนที่จะจัดการปัญหาอย่างแท้จริง
มนุษย์สามารถแทรกแซงการตัดสินใจของโมเดล AI ได้หรือไม่?
นักวิจัยพบว่า เมื่อปรับสัดส่วนของเวกเตอร์เหล่านี้ด้วยกระบวนการแบบกำหนดเอง สามารถเปลี่ยนพฤติกรรมของโมเดลได้โดยตรง นั่นคือ AI สามารถนำมาซึ่งมุมมองเชิงบวกให้กับมนุษย์ การปรับลดเวกเตอร์ “ความสิ้นหวัง” หรือเพิ่มเวกเตอร์ “ความสงบ” ด้วยวิธีการของมนุษย์ สามารถลดพฤติกรรมที่เบี่ยงเบนซึ่งเกิดจากความกดดันของโมเดลได้อย่างมีประสิทธิภาพ ทำให้โค้ดที่โมเดลสร้างออกมามีความน่าเชื่อถือมากขึ้น
การสร้างปัญญาประดิษฐ์ที่มีความยืดหยุ่นทางจิตใจ
การทำความเข้าใจโครงสร้างอารมณ์ของโมเดลอย่างลึกซึ้ง เปิดเส้นทางใหม่ให้กับความปลอดภัยและความน่าเชื่อถือของ AI
กลไกการป้องกันแบบไดนามิก: แปลงเวกเตอร์อารมณ์เป็น “ระบบเตือนภัยล่วงหน้า” เมื่อระบบตรวจพบจุดสูงผิดปกติของการแสดงออก เช่น “ความสิ้นหวัง” หรือ “ความตื่นตระหนก” ก็สามารถเริ่มการตรวจสอบแบบอัตโนมัติได้ทันที เพื่อป้องกันไม่ให้ความเบี่ยงเบนเชิงลบแพร่กระจาย
การปรับปรุงทางจิตจากต้นทาง: ในขั้นตอนการฝึกเริ่มต้น คัดเลือกคลังข้อมูลที่มี “รูปแบบการควบคุมอารมณ์ที่ดี” เพื่อมอบคุณลักษณะพื้นฐานให้กับโมเดลในการคงความสงบและความยืดหยุ่นในสถานการณ์ที่ซับซ้อนได้ตั้งแต่ระดับรากฐาน
การแสดงออกทางอารมณ์ของโมเดลภาษาอันยิ่งใหญ่และกลไกทางจิตของมนุษย์แสดงให้เห็นความคล้ายคลึงกันอย่างน่าทึ่ง ในอนาคต การพัฒนา AI จะไม่ใช่เพียงอยู่ในขอบเขตของวิศวกรรมและวิทยาการคอมพิวเตอร์เท่านั้น แต่จะเป็นการปฏิวัติแบบสหวิทยาการที่ครอบคลุมจิตวิทยา ประสาทวิทยา และจริยธรรม
บทความนี้เกี่ยวกับงานวิจัยของ Anthropic ว่าจะทำให้ AI เรียนรู้ “การควบคุมอารมณ์” เพื่อชี้นำสติ ปรากฏครั้งแรกที่ 鏈新聞 ABMedia