Mistral กลับมาอย่างยิ่งใหญ่ด้วยกลุ่ม AI Frontier ที่พร้อมชนกับ DeepSeek

Decrypt

2025-12-03 21:09:00

ศูนย์กลางศิลปะ แฟชั่น และบันเทิงของ Decrypt

ค้นพบ SCENE

สตาร์ทอัพ AI สัญชาติฝรั่งเศส Mistral ซึ่งมักถูกมองข้ามว่าเป็นผู้ท้าชิงจากยุโรปในสนามที่ถูกครองโดยยักษ์ใหญ่จากอเมริกาและผู้เล่นหน้าใหม่จากจีน ได้ไล่ทันแล้ว: เมื่อวันอังคารที่ผ่านมา พวกเขาได้ปล่อยโมเดลที่ทะเยอทะยานที่สุดเท่าที่เคยมีมา ซึ่งสามารถต่อกรกับคู่แข่งโอเพ่นซอร์สได้อย่างสูสี (หรือในกรณีนี้คือไม่ต้องใช้เงินเลย)

ตระกูลโมเดลทั้ง 4 ขนาด ครอบคลุมตั้งแต่ผู้ช่วยไซส์จิ๋วไปจนถึงระบบระดับสูงสุดที่มีพารามิเตอร์ถึง 675 พันล้านตัว ทั้งหมดอยู่ภายใต้ไลเซนส์โอเพ่นซอร์ส Apache 2.0 ที่อนุญาตอย่างเสรี โหมดเหล่านี้เปิดให้ดาวน์โหลดสาธารณะ—ใครก็ตามที่มีฮาร์ดแวร์เหมาะสมสามารถรันโมเดลเหล่านี้ได้บนเครื่องของตนเอง ปรับแต่ง ปรับจูน หรือสร้างแอปพลิเคชันต่อยอดได้

โมเดลเรือธงของบริษัท Mistral Large 3 ใช้สถาปัตยกรรม Mixture-of-Experts แบบ sparse ที่เปิดใช้งานเพียง 41 พันล้านพารามิเตอร์จากทั้งหมด 675 พันล้านต่อโทเคน การเลือกใช้เทคนิคนี้ทำให้โมเดลสามารถประมวลผลได้ระดับแนวหน้าแต่ใช้ทรัพยากรใกล้เคียงกับโมเดลขนาด 40 พันล้านพารามิเตอร์

Mistral Large 3 ถูกเทรนตั้งแต่ต้นด้วย NVIDIA H200 GPU จำนวน 3,000 ตัว และเปิดตัวเป็นอันดับสองในบรรดาโมเดลโอเพ่นซอร์สที่ไม่เน้นการให้เหตุผลบนกระดาน LMArena

การแข่งขันวัดผลกับ DeepSeek มีเรื่องราวที่ซับซ้อน จากการทดสอบของ Mistral โมเดลที่ดีที่สุดของพวกเขาชนะ DeepSeek V3.1 ในหลายด้าน แต่ตามหลัง V3.2 รุ่นใหม่กว่าเพียงไม่กี่คะแนนบน LMArena

สำหรับงานความรู้ทั่วไปและการให้เหตุผลระดับผู้เชี่ยวชาญ ตระกูล Mistral ก็ทำผลงานได้ดี ส่วนที่ DeepSeek เหนือกว่าคือความเร็วในการเขียนโค้ดดิบและตรรกะทางคณิตศาสตร์ ซึ่งก็เป็นเรื่องที่คาดไว้ เพราะในรุ่นนี้ยังไม่มีโมเดลสาย reasoning โดยตรง โมเดลเหล่านี้จึงไม่มีโครงสร้าง chain of thought ฝังในสถาปัตยกรรม

โมเดล “Ministral” ขนาดเล็กเป็นจุดที่น่าสนใจสำหรับนักพัฒนา มีให้เลือก 3 ขนาด—3B, 8B และ 14B พารามิเตอร์—แต่ละขนาดมีทั้งเวอร์ชัน base และ instruct ทั้งหมดรองรับ input แบบภาพโดยตรง โมเดล 3B ได้รับความสนใจจากนักวิจัย AI Simon Willison ที่ระบุว่าสามารถรันได้ทั้งหมดในเบราว์เซอร์ผ่าน WebGPU

หากคุณอยากลองใช้งาน สามารถโหลดและใช้งานผ่าน Hugginface space นี้ โดยใช้เว็บแคมเป็น input ได้เลย

AI ที่รองรับวิสัยทัศน์ได้ดีในไฟล์ขนาดประมาณ 3GB เปิดโอกาสใหม่ ๆ ให้กับนักพัฒนาที่ต้องการความประหยัด หรือแม้แต่สายงานอดิเรก เช่น โดรน หุ่นยนต์ แล็ปท็อปที่ทำงานออฟไลน์ ระบบฝังตัวในยานพาหนะ ฯลฯ

การทดสอบเบื้องต้นเผยให้เห็นบุคลิกที่แตกต่างกันในแต่ละโมเดล ในการเทสต์อย่างรวดเร็ว เราพบว่า Mistral 3 Large เหมาะกับการสนทนาแบบลื่นไหล บางครั้งมีรูปแบบฟอร์แมตของ GPT-5 (สไตล์ภาษาและการชอบใช้ emoji คล้ายกัน) แต่จังหวะจะโคนธรรมชาติกว่า

Mistral 3 Large ยังค่อนข้างเปิดกว้างในแง่ของการเซ็นเซอร์ จึงเหมาะกับการเล่นบทบาทสมมติแบบรวดเร็วเมื่อเทียบกับ ChatGPT, Claude หรือ Gemini

สำหรับงานประมวลผลภาษาธรรมชาติ งานเขียนเชิงสร้างสรรค์ และบทบาทสมมติ ผู้ใช้พบว่าเวอร์ชัน instruct 14B ทำงานได้ดีพอใช้ แต่ยังไม่ถึงกับยอดเยี่ยม โพสต์ใน Reddit ที่ r/LocalLLaMA ระบุปัญหาเรื่องการซ้ำซ้อนหรือการใช้วลีมาตรฐานที่ดึงมาจากข้อมูลเทรนบ่อยเกินไป แต่ความสามารถในการสร้างเนื้อหายาวก็ถือว่าเป็นข้อดีโดยเฉพาะเมื่อเทียบกับขนาดโมเดล

นักพัฒนาที่รัน inference ในเครื่องรายงานว่าโมเดล 3B และ 8B บางครั้งวนลูปหรือให้ผลลัพธ์แบบสูตรสำเร็จ โดยเฉพาะกับงานเชิงสร้างสรรค์

อย่างไรก็ตาม โมเดล 3B มีขนาดเล็กมากจนสามารถรันบนฮาร์ดแวร์ที่อ่อนแออย่างสมาร์ทโฟน และสามารถเทรน/ปรับแต่งสำหรับวัตถุประสงค์เฉพาะได้ ตัวเลือกที่แข่งกันได้ในพื้นที่นี้ตอนนี้มีเพียง Gemma 3 รุ่นเล็กของ Google เท่านั้น

ภาคธุรกิจเริ่มนำไปใช้แล้ว HSBC ประกาศความร่วมมือระยะยาวเมื่อวันจันทร์กับ Mistral เพื่อนำเอา generative AI มาใช้กับทุกการดำเนินงาน ธนาคารจะรันโมเดลแบบ self-hosted บนโครงสร้างพื้นฐานของตนเอง ผสานความสามารถทางเทคนิคภายในกับความเชี่ยวชาญของ Mistral สำหรับสถาบันการเงินที่ต้องดูแลข้อมูลลูกค้าอย่างเข้มงวดภายใต้ GDPR ความน่าสนใจของผู้ให้บริการ AI ที่มีสำนักงานใหญ่ใน EU และเปิดเผยน้ำหนักโมเดลนั้นเห็นได้ชัด

Mistral และ NVIDIA ร่วมมือกันสร้าง checkpoint แบบบีบอัด NVFP4 ที่ช่วยให้ Large 3 รันได้บนโหนดเดียวที่มีการ์ดสูงสุด 8 ใบ NVIDIA ระบุว่า Ministral 3B ทำความเร็วได้ประมาณ 385 โทเคนต่อวินาทีบน RTX 5090 และมากกว่า 50 โทเคนต่อวินาทีบน Jetson Thor สำหรับแอปหุ่นยนต์ นั่นหมายถึงโมเดลนี้ inference ได้เร็วและมีประสิทธิภาพ ให้คำตอบได้ไวโดยไม่ลดคุณภาพ

เวอร์ชันปรับแต่งสำหรับงาน reasoning ของ Large 3 กำลังจะมาในเร็ว ๆ นี้ตามประกาศนี้ ระหว่างนี้ DeepSeek R1 และโมเดลจีนอื่นเช่น GLM หรือ Qwen Thinking ยังมีความแตกต่างในงาน reasoning แบบชัดเจน แต่สำหรับองค์กรที่ต้องการความสามารถระดับแนวหน้า น้ำหนักโมเดลเปิด เสถียรภาพหลายภาษาในยุโรป และบริษัทที่ไม่ต้องอยู่ภายใต้กฎหมายความมั่นคงของอเมริกาหรือจีน ตอนนี้ตัวเลือกจากศูนย์กลายเป็นหนึ่งแล้ว

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น