مقدمة موجزة: هذه المقالة من باحثة في a16z، أوليفر هسو، وهي أكثر خرائط استثمار «الذكاء الاصطناعي الفيزيائي» منهجية منذ عام 2026. حكمه هو: لا تزال خط اللغة/الرمز في مرحلة التوسع، لكن القدرات التي يمكن أن تطلق الجيل القادم من التحولات الكبرى هي ثلاثة مجالات مجاورة مباشرة للخط الرئيسي — الروبوتات العامة، العلم الذاتي (عالم الذكاء الاصطناعي)، وواجهات الدماغ والحاسوب، وغيرها من واجهات الإنسان والآلة الجديدة. قام الباحث بتحليل خمس قدرات أساسية تدعمها، وقدم حجة أن هذه الجبهات الثلاث ستشكل دورة تغذية متبادلة هيكلية. إذا كنت تريد فهم منطق استثمار الذكاء الاصطناعي الفيزيائي بشكل واضح، فهذا هو الإطار الأكثر اكتمالا حتى الآن.

اليوم، يهيمن نموذج الذكاء الاصطناعي على المنهجية، مع تنظيم حول اللغة والرمز. لقد تم رسم قانون التوسع للنماذج اللغوية الكبيرة بوضوح، والدوران التجاري لعجلة البيانات، والحوسبة، وتحسين الخوارزميات مستمر، وكل خطوة للأعلى في القدرات تجلب عوائد كبيرة، ومعظمها مرئي. هذا النموذج يستحق أن يُعطى كل رأس المال والانتباه الذي يجذبه.

لكن مجموعة أخرى من المجالات المجاورة، قد بدأت بالفعل في إحراز تقدم جوهري خلال فترة الحضانة. تشمل هذه المسارات نماذج الرؤية-اللغة-الحركة (VLA)، ونماذج العالم-الحركة (WAM)، وغيرها من مسارات الروبوتات العامة، بالإضافة إلى الفيزياء والاستنتاج العلمي المرتبط بـ «عالم الذكاء الاصطناعي»، وأيضًا واجهات تفاعل الإنسان والآلة الجديدة التي تستخدم تقدمات الذكاء الاصطناعي لإعادة تشكيل التفاعل بين الإنسان والآلة (بما في ذلك واجهات الدماغ والحاسوب والتقنيات العصبية).

بالإضافة إلى التقنية نفسها، بدأت هذه الاتجاهات تجذب المواهب، ورؤوس الأموال، والمؤسسين. تتطور لغة التقنية الأساسية التي تمد الذكاء الاصطناعي المتقدم إلى العالم المادي في الوقت نفسه، وتُظهر التقدمات خلال الـ 18 شهرًا الماضية أن هذه المجالات ستدخل بسرعة مراحل التوسع الخاصة بها.

في أي نموذج تقني، غالبًا ما يكون المكان الذي يوجد فيه أكبر فرق بين القدرات الحالية والإمكانات المتوسطة هو مكان يتميز بخصتين: الأولى، القدرة على الاستفادة من عوائد التوسع ذاتها التي تدفع النموذج الرائد الحالي؛ الثانية، أن يكون على بعد خطوة من المنهجية السائدة — قريب بما يكفي لوراثة البنية التحتية والديناميكيات البحثية، وبعيد بما يكفي ليتطلب عملاً إضافيًا ملموسًا.

هذه المسافة ذاتها تلعب دورًا مزدوجًا: فهي تخلق بشكل طبيعي حاجزًا أمام المتابعين السريعين، وفي الوقت نفسه تحدد مساحة مشكلة أكثر ندرة وأقل ازدحامًا بالمعلومات، مما يزيد من احتمالية ظهور قدرات جديدة — تمامًا لأن الطرق المختصرة لم تُستكمل بعد.

ثلاثة مجالات تتوافق مع هذا الوصف اليوم: تعلم الروبوتات، العلم الذاتي (خصوصًا في مجالات المواد وعلوم الحياة)، وواجهات الإنسان والآلة الجديدة (بما في ذلك واجهات الدماغ والحاسوب، والصوت الصامت، والأجهزة العصبية القابلة للارتداء، وأيضًا حواس جديدة مثل الشم الرقمي).

هذه ليست مجالات مستقلة تمامًا، فهي تنتمي إلى نفس مجموعة «أنظمة الطليعة للعالم المادي». تشترك في مجموعة من المبادئ الأساسية: تمثيلات التعلم الديناميكي الفيزيائي، والهياكل الموجهة للحركات المادية، والبنية التحتية للبيانات المحاكاة والتوليف، وقنوات الحواس الموسعة باستمرار، وتنظيم الوكيل الذكي في حلقة مغلقة. تتعزز من خلال علاقات رد الفعل عبر المجالات. وهي أيضًا الأماكن الأكثر احتمالًا لظهور قدرات نوعية — ناتجة عن تفاعل حجم النماذج، والتنفيذ الفيزيائي، والأشكال الجديدة للبيانات.

سوف يستعرض هذا المقال المبادئ الأساسية التقنية التي تدعم هذه الأنظمة، موضحًا لماذا تمثل هذه المجالات الثلاثة فرصًا رائدة، ويقترح أن تفاعلها المتبادل يشكل دورة هيكلية تدفع الذكاء الاصطناعي نحو العالم المادي.

خمس المبادئ الأساسية

قبل التطرق للتطبيقات المحددة، من المهم فهم الأساس التقني المشترك لهذه الأنظمة الطليعية. دفع الذكاء الاصطناعي المتقدم إلى العالم المادي يعتمد على خمسة مبادئ رئيسية. هذه التقنيات ليست حصرية لأي مجال تطبيق واحد، فهي مكونات — تُمكّن بناء أنظمة «تمديد الذكاء الاصطناعي إلى العالم المادي». نضوجها المتزامن هو السبب الخاص وراء تميز هذه اللحظة.

المبدأ الأول: تمثيلات التعلم الديناميكي الفيزيائي

أهم مبدأ هو القدرة على تعلم تمثيل مضغوط وعام لسلوكيات العالم الفيزيائي — كيف تتحرك الأجسام، تتشوه، تصطدم، وترد على القوى. بدون هذا المستوى، سيتعين على كل نظام ذكاء اصطناعي فيزيائي أن يبدأ من الصفر في تعلم قوانين الفيزياء الخاصة بمجاله، وهو تكلفة لا يمكن دفعها.

هناك عدة مدارس معمارية تقترب من هذا الهدف من زوايا مختلفة. نموذج VLA يبدأ من الأعلى: باستخدام نماذج بصرية-لغوية مدربة مسبقًا — التي تمتلك فهمًا دلاليًا للعناصر، والعلاقات المكانية، واللغة — يضيف عليها وحدة فك رموز للحركة لإخراج أوامر التحكم في الحركة.

المفتاح هو أن تكلفة تعلم «الرؤية» و«فهم العالم» يمكن تقليلها عبر التدريب المسبق على النصوص والصور على نطاق الإنترنت. أبحاث مثل π₀ للذكاء الفيزيائي، وGemini Robotics من Google DeepMind، وGR00T N1 من إنفيديا، تثبت صحة هذا الهيكل على نطاقات متزايدة.

نموذج WAM يبدأ من الأسفل: باستخدام محول انتشاري للفيديو تم تدريبه على نطاق واسع على الفيديوهات عبر الإنترنت، مع وراثة معرفة غنية بقوانين الديناميكا الفيزيائية (مثل كيف تسقط الأجسام، وكيف تتعرض للاختفاء، وكيف تتفاعل تحت القوى)، ثم يربط هذه المعرفة مع توليد الحركات.

عرضت إنفيديا نموذج DreamZero الذي يحقق تعميمًا بدون أمثلة على مهام وبيئات جديدة، باستخدام كمية صغيرة من البيانات الملائمة من فيديوهات بشرية، وحقق تحسينات مهمة في التعميم على العالم الحقيقي.

المسار الثالث، والذي قد يكون الأكثر إلهامًا في تحديد الاتجاه المستقبلي، يتخطى نماذج VLM ووسائط الفيديو بالكامل. النموذج GEN-1 من Generalist هو نموذج أساسي موجه للمجسد، تم تدريبه من الصفر على أكثر من 500 ألف ساعة من البيانات الحقيقية للتفاعل الفيزيائي، وجمعها بشكل رئيسي من خلال أجهزة قابلة للارتداء تجمع البيانات من الأشخاص أثناء أداء مهام يومية.

هذا النموذج ليس نموذج VLA تقليدي (لا يوجد فيه نواة بصرية-لغوية يتم ضبطها)، وليس WAM. هو نموذج أساسي مصمم خصيصًا للتفاعل الفيزيائي، يتعلم من قوانين التفاعل بين الإنسان والأجسام، وليس من إحصائيات الصور والنصوص والفيديوهات على الإنترنت.

مثل الشركات التي تعمل على الذكاء المكاني، فإن هذا المبدأ ذو قيمة لأنه يعوض عن النقص في النماذج الأخرى — فهي لا تتضمن نمذجة واضحة للهياكل الثلاثية الأبعاد للمشاهد. VLA تعتمد على ميزات بصرية ثنائية الأبعاد من التدريب المسبق، وWAM تتعلم الديناميكا من الفيديوهات التي تصور مشاهد ثلاثية الأبعاد، والنماذج التي تعتمد على حساسات الارتداء تلتقط القوة والحركة، لكنها لا تلتقط هندسة المشهد. النموذج المكاني الذكي يمكن أن يعوض عن ذلك — من خلال تعلم إعادة بناء، وتوليد بيئات فيزيائية كاملة ثلاثية الأبعاد، وإجراء استنتاجات حولها: الهندسة، والإضاءة، والاختفاء، والعلاقات بين الأجسام، والتخطيط المكاني.

التركيز على تقارب هذه المسارات هو جوهري. سواء كانت التمثيلات من وراثة VLM، أو من التعلم التعاوني من الفيديو، أو من بناء أصلي من بيانات التفاعل الفيزيائي، فإن المبادئ الأساسية مشتركة: نموذج سلوكي فيزيائي مضغوط وقابل للنقل.

هذه التمثيلات تعتمد على دورة بيانات ضخمة جدًا، ومعظمها لم يُستخدم بعد — ليست فقط من الفيديوهات على الإنترنت ومسارات الروبوتات، بل أيضًا من كمية هائلة من بيانات التجارب البشرية التي بدأت تتجمع على نطاق واسع عبر الأجهزة القابلة للارتداء. نفس التمثيل يمكن أن يخدم روبوتًا يتعلم طي المناشف، أو مختبرًا مستقلًا يتوقع ردود الفعل، أو جهاز فك رموز عصبي يفسر نوايا القبض على الحركة.

المبدأ الثاني: هياكل موجهة للحركات المادية

وجود تمثيلات فيزيائية فقط غير كافٍ. لتحويل «الفهم» إلى حركات فيزيائية موثوقة، يحتاج الأمر إلى هياكل تحل عدة مشكلات مترابطة: تحويل النوايا العليا إلى أوامر حركة مستمرة، الحفاظ على التناسق عبر تسلسلات طويلة من الحركات، التشغيل في ظل تأخير زمني حقيقي، وتحسين الأداء مع الخبرة المستمرة.

الهياكل ذات الطبقتين أصبحت المعيار للمهام المادية المعقدة: نماذج بصرية-لغوية بطيئة وقوية مسؤولة عن فهم المشهد واستنتاج المهام (النظام 2)، مع استراتيجية حركة بصرية-حركية سريعة وخفيفة للتحكم في الوقت الحقيقي (النظام 1). نماذج مثل GR00T N1، وGemini Robotics، وHelix من شركة Figure تستخدم هذا النهج، لحل التوتر بين «النماذج الكبيرة توفر استنتاجات غنية» و«المهام الفيزيائية تتطلب تردد تحكم في الميلي ثانية». النموذج العامي GEN-1 يستخدم «الاستنتاج التوافقي» ليجعل التفكير والحركة يحدثان في الوقت ذاته.

آليات توليد الحركة تتطور بسرعة. تقنية π₀ المبنية على التوافق التدفق والتفكيك باستخدام الانتشار أصبحت الطريقة السائدة لإنتاج حركات سلسة ومتواصلة عالية التردد، لتحل محل التشفير القائم على نماذج اللغة الذي يعتمد على الرموز المنفصلة. هذه الطرق تعتبر عملية توليد الحركة مشابهة لدمج الصور، وتنتج مسارات أكثر سلاسة من الناحية الفيزيائية، وأكثر مقاومة لتراكم الأخطاء، وتتفوق على التوقعات التكرارية.

لكن التقدم الأهم على مستوى الهيكل هو توسيع التعلم المعزز ليشمل نماذج VLA المدربة مسبقًا — نموذج أساسي يتعلم من بيانات الأمثلة، ويمكن أن يتحسن عبر التدريب الذاتي، تمامًا كما يتقن الإنسان مهارة من خلال التكرار والتصحيح الذاتي. عمل π*₀.₆ من Physical Intelligence هو عرض واضح لهذا المبدأ على نطاق واسع. منهجهم يسمى RECAP (تعلم معزز يعتمد على استراتيجيات الميزة، والتجربة، والتصحيح)، ويعالج مشكلة توزيع الثقة في التسلسلات الطويلة التي لا يمكن حلها بالتقليد فقط.

إذا أمسك روبوت بمقبض ماكينة قهوة إيطالية بزاوية غير مثالية، فلن تظهر المشكلة على الفور، بل قد تظهر بعد عدة خطوات عند الإدخال. التعلم بالتقليد لا يملك آلية لربط هذا الفشل بالمحاولة السابقة، بينما التعلم المعزز يمتلك. RECAP يقوم بتدريب دالة قيمة، تقدر احتمالية النجاح من حالة وسيطة، ثم يختار VLA الحركات ذات الأفضلية العالية. الأهم هو أنه يدمج أنواعًا مختلفة من البيانات — بيانات الأمثلة، والتجارب الذاتية، والتصحيحات التي يقدمها الخبراء عن بعد أثناء التنفيذ — في خط تدريب واحد.

هذه الطريقة تبشر بمستقبل واعد للتعلم المعزز في مجال الحركات. نموذج π*₀.₆ ينجح في بيئات منزلية حقيقية في تكديس 50 نوعًا من الملابس لم يرها من قبل، ويجمع علب الكرتون بشكل موثوق، ويصنع القهوة الإيطالية على آلات احترافية، ويعمل لساعات متواصلة بدون تدخل بشري. في أصعب المهام، يتضاعف معدل النجاح مقارنةً بالتقليد البسيط، ويقل معدل الفشل بأكثر من النصف. كما أثبتت هذه الأنظمة أن التدريب بعد التفاعل يمكن أن ينتج سلوكيات نوعية لم تكن ممكنة بالتقليد فقط: حركات استعادة أكثر سلاسة، واستراتيجيات قبض أكثر كفاءة، وتصحيحات ذاتية لم تكن موجودة في البيانات التدريبية.

هذه المكاسب تؤكد شيئًا واحدًا: أن الدفع بالحوسبة من GPT-2 إلى GPT-4، من خلال التوسع في الحسابات، بدأ يعمل في المجال المادي المتمثل في الحركات — لكنه الآن في نقطة مبكرة على المنحنى، حيث أن فضاء الحركات مستمر وعالي الأبعاد، ويجب التعامل مع قيود العالم الفيزيائي القاسية.

المبدأ الثالث: البنية التحتية للمحاكاة والبيانات التركيبية

في مجال اللغة، تم حل مشكلة البيانات عبر الإنترنت: تريليونات من النصوص الناتجة طبيعيًا والمتاحة مجانًا. أما في العالم الفيزيائي، فهي مشكلة أكبر بكثير — وهو ما أصبح إجماعًا عليه الآن، والدليل المباشر هو أن الشركات الناشئة التي توفر بيانات العالم الفيزيائي تتزايد بسرعة.

جمع مسارات الروبوتات الحقيقية مكلف، ويحتمل أن يكون محفوفًا بالمخاطر، ويقتصر على تنوع محدود. يمكن لنموذج اللغة أن يتعلم من مليار محادثة، لكن روبوتًا (حتى الآن) لا يمكنه أن يشارك في مليار تفاعل فيزيائي.

إنتاج البيانات عبر المحاكاة والتوليف هو البنية التحتية الأساسية لحل هذا القيد، وتطورها هو أحد الأسباب الرئيسية لتسريع الذكاء الاصطناعي الفيزيائي اليوم، وليس قبل خمس سنوات.

تجمع تقنية المحاكاة الحديثة بين محركات المحاكاة الفيزيائية، والتصيير باستخدام تتبع الأشعة، وتوليد البيئات برمجياً، والبنية التحتية للبيانات الكبيرة التي تستخدم الإدخالات المحاكاة لإنتاج فيديوهات عالية الجودة — والتي تملأ فجوة الانتقال من المحاكاة إلى الواقع. تبدأ السلسلة من إعادة بناء المشهد الحقيقي باستخدام تقنية عصبية (حتى باستخدام هاتف واحد)، ثم تملأ الأصول الفيزيائية الدقيقة، وتنتهي بإنتاج بيانات تركيبية ضخمة مع علامات تلقائية.

تحسينات سلسلة المحاكاة تعني أنها تغير الافتراضات الاقتصادية التي تدعم الذكاء الاصطناعي الفيزيائي. إذا كانت العقبة الرئيسية تتحول من «جمع البيانات الحقيقية» إلى «تصميم بيئات افتراضية متنوعة»، فإن منحنى التكاليف سينهار. مع زيادة القدرة الحاسوبية، يمكن للمحاكاة أن تتوسع بدون الاعتماد على العمالة أو الأجهزة الفيزيائية. هذا يعيد تشكيل الهيكل الاقتصادي لتدريب أنظمة الذكاء الاصطناعي الفيزيائي، تمامًا كما غيرت البيانات النصية على الإنترنت تدريب نماذج اللغة — مما يعني أن الاستثمار في البنية التحتية للمحاكاة له تأثير كبير على النظام البيئي بأكمله.

لكن المحاكاة ليست فقط مبدأ للأوامر الروبوتية. فهي تخدم أيضًا مجالات العلم الذاتي (مثل النماذج الرقمية لمختبرات الأبحاث، والمحاكاة لاختبار الفرضيات)، وواجهات جديدة (مثل بيئات الأعصاب المحاكاة لتدريب مفككي الشفرة الدماغية، وبيانات الحواس التركيبية لمعايرة المستشعرات الجديدة)، وغيرها من مجالات التفاعل بين الذكاء الاصطناعي والعالم الفيزيائي. المحاكاة هي محرك البيانات العام للذكاء الاصطناعي الفيزيائي.

المبدأ الرابع: توسيع قنوات الحواس

إشارات العالم الفيزيائي التي تنقل المعلومات، أغنى بكثير من الرؤية واللغة. اللمس ينقل خصائص المواد، واستقرار القبضة، والهندسة التلامسية التي لا يمكن للكاميرات رؤيتها. الإشارات العصبية، باستخدام أي واجهة إنسان-آلة حالية، تتطلب عرض نطاق ترددي أكبر بكثير من تلك التي توفرها. تُشفر نوايا الحركة، والحالة الإدراكية، والخبرات الحسية. النشاط العضلي تحت الصوتي يُشفر نوايا الكلام قبل أن يُصدر صوتًا. المبدأ الرابع هو أن الذكاء الاصطناعي يوسع بسرعة قنوات الحواس التي كانت سابقًا صعبة الوصول إليها — ليس فقط من خلال البحث، بل أيضًا من خلال بناء أجهزة وبرمجيات وبنى تحتية استهلاكية.

المؤشر الأكثر وضوحًا هو ظهور أجهزة جديدة. على سبيل المثال، تحسنت أجهزة الواقع المعزز بشكل كبير خلال السنوات الأخيرة من حيث التجربة والشكل (وأصبحت تستخدم في تطبيقات استهلاكية وصناعية)؛ وأجهزة AI القابلة للارتداء التي تعتمد على الصوت سمحت للذكاء الاصطناعي اللغوي بالحصول على سياق مادي أكثر اكتمالاً — فهي تتبع المستخدمين إلى البيئة الفيزيائية.

على المدى الطويل، قد تفتح واجهات الأعصاب إمكانيات تفاعل أكثر تكاملاً. التحول في طرق الحوسبة التي يوفرها الذكاء الاصطناعي يخلق فرصة لترقية التفاعل بين الإنسان والآلة بشكل كبير، وتعمل شركات مثل Sesame على تطوير قنوات وأجهزة جديدة لهذا الغرض.

اللغة، كواجهة تفاعل أكثر انتشارًا، توفر أيضًا فرصة لطرق تفاعل جديدة. منتجات مثل Wispr Flow تركز على الصوت كوسيلة إدخال رئيسية (لأنها عالية الكثافة المعلوماتية ولها مزايا طبيعية)، وتحسين سوق الواجهات الصامتة. أجهزة الصوت الصامت تستخدم حساسات متعددة لالتقاط حركات اللسان والحبال الصوتية، وتعرف اللغة بدون صوت — وهو نمط تفاعل بين الإنسان والآلة ذو كثافة معلومات أعلى من الصوت.

واجهات الدماغ والحاسوب (الداخلية وغير الغازية) تمثل أفقًا أعمق، وتدعمها بيئة تجارية مستمرة. الإشارات تظهر في التحقق السريري، والموافقات التنظيمية، ودمج المنصات، ورؤوس الأموال المؤسساتية — وهو تطور كان قبل سنوات حكرًا على الأوساط الأكاديمية.

حاسة اللمس تدخل الآن في بنية الذكاء الاصطناعي المتمركزة حول الجسم، حيث بدأت بعض نماذج تعلم الآلة في الروبوتات تضع اللمس كمكون أساسي. واجهات الشم تتطور إلى منتجات هندسية حقيقية: أجهزة استشعار الشم المحمولة التي تستخدم مولدات روائح صغيرة، وتستجيب خلال ميلي ثانية، وقد تم عرضها في تطبيقات الواقع المختلط؛ ونماذج الشم بدأت تتطابق مع أنظمة الذكاء البصري، وتستخدم لمراقبة العمليات الكيميائية.

الأنماط المشتركة لهذه التطورات هي أنها تتقارب عند حدودها. نظارات الواقع المعزز تستمر في جمع البيانات البصرية والمكانية عن تفاعل المستخدم مع البيئة؛ وأساور EMG تلتقط إحصائيات نوايا الحركة البشرية؛ وواجهات الصوت الصامت تلتقط التحويل من نشاط الحبال الصوتية إلى اللغة؛ وواجهات الدماغ والحاسوب تلتقط النشاط العصبي بدقة عالية؛ وأجهزة استشعار اللمس تلتقط ديناميكيات التلامس الفيزيائي. كل جهاز جديد هو أيضًا منصة لتوليد البيانات، تغذي نماذج أساسية في مجالات متعددة.

روبوت يستخدم بيانات EMG لاستنتاج نوايا الحركة، ويختلف عن روبوت يُدرَّب فقط على البيانات عن بعد؛ ونموذج استجابة لأوامر الحبال الصوتية في المختبر، يختلف تمامًا عن بيئة مختبر تعتمد على لوحة المفاتيح من حيث التأخير والسلاسة؛ ونموذج فك رموز عصبي مدرب على بيانات BCI عالية الكثافة، يمكن أن ينتج تمثيلات تخطيط الحركة التي لا يمكن الحصول عليها من أي قناة أخرى.

انتشار هذه الأجهزة يوسع بشكل فعال فضاء البيانات الذي يمكن أن تدعمه أنظمة الذكاء الاصطناعي الفيزيائي، ومعظم هذا التوسع يقوده شركات استهلاكية ذات موارد مالية، وليس فقط المختبرات الأكاديمية، مما يعني أن دورة البيانات ستتوسع مع اعتماد السوق.

المبدأ الخامس: أنظمة الوكيل الذكي ذات الحلقة المغلقة

المبدأ الأخير هو أكثر تعلقًا بالهندسة المعمارية. يشير إلى دمج الإدراك، والاستنتاج، وتنظيم الحركات في نظام مستمر، ذاتي، ذو حلقة مغلقة، يعمل بشكل مستقل على مدى فترات زمنية طويلة.

في نماذج اللغة، يُعبر عن ذلك بظهور أنظمة الوكيل الذكي — سلاسل استنتاج متعددة الخطوات، واستخدام الأدوات، وعمليات التصحيح الذاتي، التي حولت النموذج من أداة استجابة لمحادثة واحدة إلى حل مشكلات مستقل. في العالم الفيزيائي، يحدث التحول نفسه، لكن مع متطلبات أكثر صرامة. يمكن لنموذج اللغة أن يخطئ ويعود بدون تكلفة، لكن النموذج الفيزيائي إذا أسقط زجاجة مادة كيميائية، فالأمر لا يمكن تصحيحه بسهولة.

الأنظمة الذكية للعالم الفيزيائي تتميز بثلاث خصائص تميزها عن النسخة الرقمية:

الأولى، ضرورة دمجها في تجارب أو عمليات مغلقة: ربط مباشر مع تدفقات البيانات من الأدوات، وأجهزة الاستشعار، والأوامر التنفيذية، بحيث يكون الاستنتاج مرتبطًا بالواقع الفيزيائي، وليس فقط بوصفه نصيًا.

الثانية، ضرورة الاستمرارية عبر تسلسلات طويلة: حفظ الذاكرة، وتتبع الأصل، والمراقبة الأمنية، واستعادة السلوك، وربط عدة دورات تشغيل، بدلاً من اعتبار كل مهمة كحكاية مستقلة.

الثالثة، الحاجة إلى التكيف في الحلقة المغلقة: تعديل الاستراتيجيات استنادًا إلى النتائج الفيزيائية، وليس فقط استنادًا إلى ردود الفعل النصية.

هذا المبدأ يدمج قدرات مستقلة (نموذج عالمي جيد، هياكل حركية موثوقة، مجموعة حساسات غنية) في نظام كامل قادر على العمل بشكل مستقل في العالم الفيزيائي. هو طبقة التكامل، نضوجها هو الشرط الأساسي لوجود هذه الأنظمة في تطبيقات العالم الحقيقي، وليس فقط في أبحاث منفصلة.

ثلاثة مجالات

المبادئ الأساسية المذكورة أعلاه هي طبقات تمكين عامة، ولا تحدد بشكل مباشر أين ستتواجد أهم التطبيقات. العديد من المجالات تتعلق بالحركات الفيزيائية، والقياسات، والإحساس الفيزيائي. الفرق بين «الأنظمة الطليعية» و«الأنظمة المحسنة فقط» يكمن في مدى تراكم قدرات النماذج، وتطور البنى التحتية للتوسع — ليس فقط في الأداء، بل في ظهور قدرات جديدة لم تكن ممكنة من قبل.

الروبوتات، والعلوم المدفوعة بالذكاء الاصطناعي، وواجهات الإنسان والآلة الجديدة هي المجالات الثلاثة التي تظهر فيها هذه التراكمات بشكل أقوى. كل واحد منها يستخدم بشكل فريد المبادئ الأساسية، وكل واحد منها مقيد حاليًا بالقيود التي تزيلها المبادئ، وكل واحد منها ينتج خلال التشغيل نوعًا من البيانات الهيكلية للعالم الفيزيائي — والتي بدورها تحسن المبادئ، وتخلق حلقة رد فعل، وتسرع النظام بأكمله. ليست هذه المجالات الوحيدة للذكاء الاصطناعي الفيزيائي، لكنها الأكثر تفاعلًا مع الواقع المادي، والأبعد عن منهجية اللغة/الرمز الحالية، والأكثر احتمالًا لظهور قدرات جديدة — وفي الوقت نفسه، أكثر تكاملًا معها، ويمكن أن تستفيد من عوائدها.

الروبوتات

الروبوتات هي التجسيد الحرفي للذكاء الاصطناعي الفيزيائي: نظام ذكاء اصطناعي يحتاج إلى الإدراك الفوري، والاستنتاج، والتفاعل المادي مع العالم. وهي أيضًا تختبر كل مبدأ من المبادئ الأساسية.

تخيل كم من الأمور يحتاج روبوت عام ليقوم بطي منشفة واحدة. يحتاج إلى تمثيل فيزيائي مكتسب حول كيف تتصرف المواد القابلة للتشوه تحت القوى — وهو معرفة فيزيائية مسبقة، وهذه ليست من قدرات التدريب المسبق على النصوص والصور. يحتاج إلى بنية للتحكم في الحركة تترجم الأوامر العليا إلى تسلسلات مستمرة من أوامر الحركة بسرعة تتجاوز 20 هرتز.

يحتاج إلى بيانات تدريب من خلال المحاكاة، لأنه لم يُجمع من قبل ملايين الأمثلة الحقيقية لطي المنشفة. يحتاج إلى ردود فعل لمسية للكشف عن الانزلاق وضبط قوة القبضة، لأن الرؤية لا تميز بين قبضة ثابتة وفاشلة. ويحتاج إلى وحدة تحكم مغلقة يمكنها التعرف على الأخطاء واستعادتها عند وقوعها، بدلاً من تنفيذ مسارات ذاكرة عمياء.

لهذا السبب، يُعتبر الروبوت نظامًا طليعيًا، وليس تخصصًا هندسيًا ناضجًا أكثر. المبادئ الأساسية ليست مجرد تحسين لقدرات الروبوت الحالية، بل تفتح فئات من العمليات، والحركات، والتفاعلات التي كانت غير ممكنة خارج بيئات صناعية ضيقة.

شهدنا تقدمًا كبيرًا في السنوات الأخيرة — كتبنا عن ذلك سابقًا. أول جيل من نماذج VLA أثبت أن النماذج الأساسية يمكنها التحكم في الروبوتات لأداء مهام متنوعة. التقدم في الهيكل يربط بين الاستنتاجات عالية المستوى والتحكم في المستوى الأدنى. أصبح الاستنتاج في الطرف المحمول ممكنًا، والانتقال عبر الأنواع يعني أن نموذجًا واحدًا يمكن أن يتكيف مع منصة روبوت جديدة باستخدام بيانات محدودة. التحدي الرئيسي الآن هو الاعتمادية على نطاق واسع، وهو ما يظل عائقًا أمام النشر. معدل نجاح 95% لكل خطوة، و60% على مدى 10 خطوات، يتطلب تحسينات — والتعلم المعزز بعد التدريب لديه القدرة على تجاوز ذلك، وتحقيق قدرات ومرونة ضرورية للانتقال إلى مرحلة التوسع.

هذه التقدمات تؤثر على الهيكل السوقي. طوال عقود، كانت قيمة صناعة الروبوتات مركزة على الأنظمة الميكانيكية نفسها، وما زالت، لكن مع تطور استراتيجيات التعلم، تتجه القيمة نحو النماذج، والبنى التحتية للتدريب، ودورة البيانات. كما أن التعلم من البيانات الحقيقية يعيد تغذية المبادئ الأساسية: كل مسار حقيقي يُستخدم لتحسين النموذج، وكل فشل في النشر يفضح فجوات في التغطية بالمحاكاة، وكل اختبار لنموذج جديد يوسع تنوع الخبرة الفيزيائية المتاحة للتدريب. الروبوتات ليست فقط المستهلك الأكثر تطلبًا للمبادئ الأساسية، بل أيضًا مصدرًا هامًا للتغذية الراجعة للتحسين.

العلم الذاتي

إذا كان الروبوت يختبر المبادئ من خلال «الحركات الفيزيائية في الوقت الحقيقي»، فإن العلم الذاتي يختبر شيئًا مختلفًا — وهو الاستنتاج المستمر متعدد الخطوات لنظم فيزيائية معقدة، على مدى ساعات أو أيام، مع تفسير النتائج، وتفسيرها، وتحديث الاستراتيجيات بناءً عليها.

العلوم المدفوعة بالذكاء الاصطناعي هي المجال الأكثر تكاملًا للمبادئ الأساسية. يحتاج مختبر ذاتي القيادة (SDL) إلى تعلم تمثيلات فيزيائية-كيميائية للتنبؤ بنتائج التجارب؛ ويحتاج إلى حركات موجهة لانتقال السوائل، وتحديد العينات، والتعامل مع أجهزة التحليل؛ ويحتاج إلى محاكاة لاختبار التجارب المحتملة، وتخصيص وقت الأجهزة النادرة؛ ويحتاج إلى توسعة قدرات الحساسات — مثل الطيف، والكربوغرافيا، والكروماتوغرافيا، والقياسات الكيميائية والبيولوجية — لتمثيل النتائج.

هو أكثر حاجة من أي مجال آخر إلى تنسيق الحلقة المغلقة: بحيث يمكنه إدارة تدفقات العمل «الافتراض-التجربة-التحليل-التعديل» بدون تدخل، مع الحفاظ على تتبع الأصل، والمراقبة الأمنية، وتعديل الاستراتيجيات استنادًا إلى المعلومات المكتشفة في كل دورة.

لا يوجد مجال آخر يستخدم هذه المبادئ بعمق مماثل. لهذا السبب، العلم الذاتي هو نظام طليعي، وليس مجرد أتمتة مخبرية محسنة. شركات مثل Periodic Labs وMedra تدمج قدرات الاستنتاج العلمي والتحقق الفيزيائي، وتنتج بشكل مستمر بيانات تدريبية للتجارب، وتسرع دورة التكرار العلمي.

قيمتها واضحة من خلال الحدس: اكتشاف المواد من المفهوم إلى السوق يستغرق سنوات، لكن تسريعها عبر الذكاء الاصطناعي يمكن أن يقلص هذا الزمن بشكل كبير. التحدي الرئيسي يتحول من «الافتراضات» إلى «الانتاج والتحقق» — حيث تتطلب الأجهزة الفيزيائية، والروبوتات، والتحسينات المغلقة. SDL يركز على هذا التحدي.

ميزة أخرى مهمة للعلم الذاتي، وهي أن دوره كمحرك بيانات في جميع أنظمة العالم الفيزيائي، هو جوهري. كل تجربة يُجريها SDL تنتج ليس فقط نتيجة علمية، بل إشارة تدريبية مثبتة وذات أساس في الواقع الفيزيائي.

قياس واحد حول تبلور البوليمر في ظروف معينة يُثري نموذج العالم حول ديناميكيات المادة؛ ومسار اصطناعي تم التحقق منه يصبح بيانات تدريب للاستنتاج الفيزيائي؛ وفشل تم تصنيفه يُعلم النظام عن مواضع قصوره في التوقع. البيانات الناتجة عن تجارب العلماء الحقيقيين تختلف جوهريًا عن النصوص على الإنترنت أو المخرجات المحاكاة — فهي منظمة، وسببية، ومثبتة تجريبيًا. هذا هو نوع البيانات التي تحتاجها نماذج الاستنتاج الفيزيائي أكثر من غيرها، ولا يمكن أن توفرها مصادر أخرى. العلم الذاتي يربط الواقع الفيزيائي مباشرة بمعرفة منظمة، ويعزز النظام البيئي للذكاء الاصطناعي الفيزيائي.

واجهات جديدة

الروبوتات تمد الذكاء الاصطناعي إلى الحركة الفيزيائية، والعلم الذاتي يمده إلى البحث الفيزيائي. الواجهات الجديدة تربطه مباشرة بتجربة الإنسان، والإحساس، والإشارات الجسدية — من نظارات الواقع المعزز، وأساور EMG، إلى واجهات الدماغ المزروعة.

ما يوحد هذه الفئة هو وظيفة مشتركة: توسيع عرض النطاق والأنماط بين الذكاء الاصطناعي والبشر — وخلق تدفقات بيانات مباشرة يمكن استخدامها لبناء أنظمة ذكاء اصطناعي فيزيائية.

المسافة عن المنهج السائد، هي تحدي هذا المجال وفرصه. نماذج اللغة تتعرف على هذه الأنماط من المفهوم، لكنها ليست مريحة بشكل طبيعي مع أنماط الحركة الصامتة، أو الهياكل الهندسية للمستقبلات الشمية، أو الديناميكيات الزمنية لإشارات EMG.

فك رموز هذه الإشارات يتطلب تعلمها من القنوات الحسية التي تتوسع بسرعة. العديد من الأنماط لا تتوفر على نصوص على الإنترنت، وغالبًا ما يُنتج البيانات من خلال الواجهات نفسها — مما يعني أن النظام وبيانات تدريبه يتطوران معًا، وهو شيء لا يوجد في الذكاء الاصطناعي اللغوي.

الأداء الحديث في هذا المجال هو الارتفاع السريع لأجهزة AI القابلة للارتداء كمستهلكات. نظارات الواقع المعزز ربما تكون المثال الأبرز، وأجهزة أخرى تعتمد على الصوت أو الرؤية تظهر أيضًا بشكل متزامن.

هذه البيئة من الأجهزة الاستهلاكية توفر منصة جديدة لنشر الذكاء الاصطناعي في العالم الفيزيائي، وتتحول إلى بنية تحتية لبيانات العالم الفيزيائي. شخص يرتدي نظارات AI يمكنه إنتاج بث فيديو من وجهة نظره عن كيفية تنقل الإنسان، وتفاعل الجسم مع البيئة، وتحكمه في الأشياء؛ والأجهزة الأخرى تلتقط باستمرار بيانات حيوية وحركية. انتشار أجهزة AI القابلة للارتداء يتحول إلى شبكة توزيع لبيانات العالم الفيزيائي، تسجل تجارب الإنسان الفيزيائية على نطاق غير مسبوق.

تخيل حجم الهواتف الذكية كمستهلكات، وكيف أن فئة جديدة من الأجهزة الاستهلاكية تتيح للكمبيوتر أن يدرك العالم من خلال أنماط جديدة — وهو طريق جديد ضخم للتفاعل بين AI والعالم الفيزيائي.

واجهات الدماغ والحاسوب تمثل أفقًا أعمق. Neuralink زرع بالفعل أقطابًا في عدة مرضى، وتتم تجربة روبوتات جراحية وبرمجيات فك رموز. شركة Synchron تستخدم Stentrode داخل الأوعية الدموية لمساعدة المصابين بالشلل على التحكم في البيئة الرقمية والمادية. شركة Echo Neurotechnologies تعمل على نظام BCI لاستعادة اللغة، استنادًا إلى أبحاثها في فك رموز الكلام عالي الدقة من القشرة الدماغية.

شركات جديدة مثل Nudge تتجمع لجمع المواهب ورؤوس الأموال لبناء منصات تفاعل دماغي جديدة. من ناحية التقنية، هناك معالم مهمة: شريحة BISC التي تظهر تسجيلات لاسلكية من 65536 قطب كهربائي؛ وفريق BrainGate الذي يفسر اللغة الداخلية من القشرة الحركية.

الخطوط الرئيسية التي تربط نظارات الواقع المعزز، والأجهزة القابلة للارتداء، وأجهزة الصوت الصامت، وواجهات الدماغ والحاسوب ليست فقط أن «كلها واجهات»، بل أنها تشكل طيفًا متزايدًا لعرض النطاق بين التجربة البشرية والنظام الذكي — وكل نقطة على هذا الطيف تدعم التقدم المستمر للمبادئ الأساسية الثلاثة التي ناقشناها.

روبوت مدرب على بيانات عالية الجودة من خلال آلاف من نظارات AI، يختلف تمامًا عن روبوت مدرب على بيانات عن بعد؛ ونموذج استجابة لأوامر الحبال الصوتية في المختبر، يختلف تمامًا عن بيئة مختبر تعتمد على لوحة المفاتيح من حيث التأخير والسلاسة؛ ونموذج فك رموز عصبي مدرب على بيانات BCI عالية الكثافة، ينتج تمثيلات تخطيط الحركة التي لا يمكن الحصول عليها من أي قناة أخرى.

هذه الواجهات الجديدة توسع بشكل فعال فضاء البيانات التي يمكن أن تدعم أنظمة الذكاء الاصطناعي الفيزيائي، ويقودها بشكل كبير شركات استهلاكية ذات موارد، وليس فقط المختبرات الأكاديمية، مما يعني أن دورة البيانات ستتوسع مع اعتماد السوق.

المبادئ الأساسية الخمسة

باختصار، هذه المبادئ الأساسية تشكل طبقات تمكين عامة، ولا تحدد بشكل مباشر أين ستتواجد أهم التطبيقات. العديد من المجالات تتعلق بالحركات، والقياسات، والإحساس الفيزيائي. الفرق بين «الأنظمة الطليعية» و«الأنظمة المحسنة فقط» يكمن في مدى تراكم قدرات النماذج، وتطور البنى التحتية للتوسع — ليس فقط في الأداء، بل في ظهور قدرات جديدة لم تكن ممكنة من قبل.

الروبوتات

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GatePreIPOsLaunchesWithSpaceX
203.02K درجة الشعبية
#
Gate13thAnniversaryLive
631.71K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.11K درجة الشعبية
#
AltcoinsRallyStrong
7.33M درجة الشعبية
#
AnthropicvsOpenAIHeatsUp
1.07M درجة الشعبية

تثبيت

خريطة الموقع

A16z: الجبهة التالية للذكاء الاصطناعي، العجلة الثلاثية للروبوتات، العلوم الذاتية، وواجهات الدماغ والحاسوب

المواضيع الرائجة

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

تثبيت