NVIDIA เปิดซอร์สโมเดลสมองกลอัจฉริยะ 120B Nemotron 3 Super ที่มีอัตราการประมวลผลสูงสุดเพิ่มขึ้น 5 เท่า

ข่าว Gate News เมื่อวันที่ 12 มีนาคม NVIDIA ได้เปิดตัวโมเดลภาษาขนาดใหญ่แบบโอเพ่นซอร์ส Nemotron 3 Super ออกแบบมาเพื่อการใช้งานในหลายเอเจนต์ โมเดลมีพารามิเตอร์รวม 1200 พันล้าน ใช้สถาปัตยกรรม Mamba-Transformer MoE แบบผสม เมื่อทำการวิเคราะห์แต่ละโทเค็นจะเปิดใช้งานพารามิเตอร์เพียง 120 พันล้านเท่านั้น เทคโนโลยีหลัก “Latent MoE” ซึ่งฝังโทเค็นเข้าไปในพื้นที่แฝงที่มีลักษณะต่ำ แล้วส่งต่อไปยังเครือข่ายผู้เชี่ยวชาญ ทำให้สามารถเปิดใช้งานผู้เชี่ยวชาญ 4 คนพร้อมกันโดยมีต้นทุนการคำนวณเท่ากับผู้เชี่ยวชาญเดียว ซึ่งทำให้ประสิทธิภาพการวิเคราะห์สูงขึ้นถึง 5 เท่าเมื่อเทียบกับ Nemotron Super รุ่นก่อนหน้านี้ โมเดลรองรับหน้าต่างบริบท 1 ล้านโทเค็น เหมาะสำหรับเอเจนต์อัจฉริยะที่ต้องรักษาสถานะการทำงานเป็นเวลานาน ในการทดสอบ PinchBench ซึ่งเป็นมาตรฐานวัดภาระงานของเอเจนต์ Nemotron 3 Super ได้คะแนน 85.6% ซึ่งเป็นคะแนนสูงสุดในกลุ่มโมเดลโอเพ่นซอร์สที่คล้ายกัน NVIDIA ได้เปิดเผยชุดข้อมูลการฝึกที่มีมากกว่า 10 ล้านล้านโทเค็น สภาพแวดล้อมการเรียนรู้เสริม 15 ชุด และวิธีการประเมินผล ภายใต้ใบอนุญาต NVIDIA Nemotron Open Model License โมเดลนี้ได้เผยแพร่บนแพลตฟอร์มต่าง ๆ เช่น Hugging Face, build.nvidia.com, Perplexity, OpenRouter และรองรับการปรับใช้บนคลาวด์เช่น Google Cloud, Oracle, AWS Bedrock, Azure บริษัทต่าง ๆ เช่น Perplexity, CodeRabbit, Cadence, Dassault Systèmes และ Siemens ได้เริ่มใช้งานแล้ว

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น