Cloudflare الذي يحميك من الزحافات يطلق "واجهة برمجة التطبيقات الشاملة لزحافات الموقع بنقرة واحدة"، مع دعم كامل لـ RAG والتحديثات الإضافية وتدريب النموذج

動區BlockTempo

كلاودفلير أطلقت في 10 مارس نقطة نهاية جديدة تمامًا لواجهة برمجة التطبيقات /crawl (حاليًا في المرحلة التجريبية المفتوحة) لخدمة عرض المتصفح الخاص بها. تتيح هذه الميزة للمطورين استدعاء واحد لزحف الموقع بالكامل، وتحويل المحتوى تلقائيًا إلى HTML أو Markdown أو JSON منظم، مما يوفر أدوات قوية ومتوافقة لبناء مجموعات بيانات تدريب الذكاء الاصطناعي وقنوات RAG (الاسترجاع المعزز للإنتاج).

(ملخص سابق: عطل كبير في كلاودفلير أدى إلى تعطل واسع النطاق للشبكة العالمية، هل أصبح “اللامركزية” هي البنية التحتية المستقبلية؟)

(معلومات إضافية: بعد توقف كلاودفلير لمدة 24 ساعة، لماذا تنهار الشبكة فورًا؟ المخاطر المركزية وتأثيرها على Web3 و RWA في المستقبل)

فهرس المقال

تبديل

  • عمليات غير متزامنة، تدعم Markdown و JSON منظم
  • تركز على “الطفل الحسن” للزواحف، مع الالتزام باللوائح والحماية
  • الزحف التدريجي يقلل التكاليف، مع تجربة مجانية

مع النمو السريع لتقنيات الذكاء الاصطناعي التوليدي و RAG (الاسترجاع المعزز للإنتاج)، أصبح الحصول على بيانات المواقع بشكل فعال ومتوافق تحديًا رئيسيًا للمطورين. لهذا، أعلن عملاق البنية التحتية الشبكية كلاودفلير رسميًا في 10 مارس عن ميزة جديدة قاتلة: نقطة نهاية API جديدة تمامًا /crawl.

هذه الميزة، التي لا تزال في المرحلة التجريبية المفتوحة، تركز على تمكين المطورين من “زحف موقع كامل باستدعاء API واحد فقط”.

عمليات غير متزامنة، تدعم Markdown و JSON منظم

وفقًا لإعلان كلاودفلير، يستخدم API الجديد للزحف وضع تشغيل غير متزامن. يكفي أن يرسل المطورون عنوان URL ابتدائي، وسيقوم النظام بإرجاع معرف مهمة (Job ID)، ويعمل خلف الكواليس باستخدام متصفح بدون رأس (Headless Browser) لاكتشاف وعرض صفحات الويب تلقائيًا. يمكن للمطورين تتبع تقدم الزحف ونتائجه في أي وقت عبر هذا المعرف.

لتسهيل تكاملها مع سير عمل تطوير الذكاء الاصطناعي الحالي، يوفر هذا API العديد من تنسيقات الإخراج. بالإضافة إلى HTML التقليدي، يمكنه إخراج تنسيق Markdown المفضل لدى نماذج اللغة الكبيرة (LLMs)، و JSON منظم مدفوع بواسطة Workers AI. هذا يقلل بشكل كبير من الوقت المستغرق في تنظيف البيانات وتحويلها.

تركز على “الزاحف الطيب”، مع الالتزام باللوائح والحماية

على عكس العديد من الزواحف الخبيثة التي تحاول تجاوز الحماية، تركز نقطة النهاية /crawl التي أطلقتها كلاودفلير على “الامتثال والشفافية”. تؤكد الشركة أن هذه النقطة هي وكيل موقّع (Signed-agent)، وتلتزم بشكل صارم بتعليمات robots.txt للموقع المستهدف (بما في ذلك قيود التأخير في الزحف)، وتحترم قواعد “التحكم في الزحف بواسطة الذكاء الاصطناعي” الخاصة بكلاودفلير.

بالإضافة إلى ذلك، أوضحت كلاودفلير أن هذه الأداة “ستُظهر نفسها على أنها روبوت”، ولن تتمكن من تجاوز أنظمة اكتشاف الروبوتات أو CAPTCHA الخاصة بكلاودفلير. يضمن هذا التصميم أن سلوك الزحف لن ينتهك رغبات مالكي المواقع أو يضغط على الخوادم.

الزحف التدريجي يقلل التكاليف، مع تجربة مجانية

لزيادة الكفاءة وتقليل التكاليف، يتضمن هذا API العديد من وظائف التحكم المتقدمة:

  • الزحف التدريجي (Incremental crawling): يدعم معلمات modifiedSince و maxAge، مما يسمح بتخطي الصفحات غير المعدلة أو التي تم زحفها مؤخرًا، مما يوفر في حسابات التكرار.
  • التحكم الدقيق في النطاق: يمكن للمطورين تخصيص عمق الزحف، وحدود عدد الصفحات، واستخدام الأحرف البرية (Wildcard) لتضمين أو استبعاد مسارات URL معينة.
  • الوضع الثابت (Static mode): للمواقع الثابتة التي لا تتطلب عرض JavaScript، يمكن تعيين render: false لتخطي تشغيل المتصفح بدون رأس، وتحقيق زحف سريع جدًا.

حتى الآن، تم فتح هذه الميزة القوية للزحف لجميع مستخدمي كلاودفلير ووركرز في النسخ المجانية والمدفوعة. يعد هذا ترقية أساسية جذابة لفِرق التطوير التي تحتاج إلى مراقبة محتوى المواقع بشكل دوري، وجمع البيانات البحثية، أو بناء قواعد معرفية للذكاء الاصطناعي على مستوى الشركات.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات