Cloudflare am 10. März die neue /crawl API-Endpunkt für seinen Browser Rendering Service (derzeit in Open Beta) eingeführt. Diese Funktion ermöglicht es Entwicklern, eine einzige API-Anfrage zu verwenden, um eine gesamte Website zu crawlen, wobei Inhalte automatisch in HTML, Markdown oder strukturiertes JSON umgewandelt werden. Damit bietet sie eine leistungsstarke und regelkonforme Lösung für den Aufbau von KI-Trainingsdatensätzen und RAG (Retrieval-Augmented Generation)-Pipelines.
(Vorgeschichte: Cloudflares großflächiger Ausfall führte zu globalen Netzwerkstörungen – ist „Dezentralisierung“ die Zukunft der Infrastruktur?)
(Hintergrund: Warum fällt das Netzwerk bei Cloudflare-Ausfällen innerhalb von 24 Stunden komplett aus? Das Risiko der Zentralisierung für Web3 und RWA in der Zukunft)
Inhaltsverzeichnis
Toggle
Mit dem explosiven Wachstum generativer KI und RAG-Technologien wird die effiziente und regelkonforme Erfassung von Webseitendaten zur zentralen Herausforderung für Entwickler. Daher kündigte Cloudflare am 10. März offiziell eine bahnbrechende neue Funktion für seinen Browser Rendering Service an: den neuen /crawl API-Endpunkt.
Diese derzeit in Open Beta befindliche Funktion ermöglicht es Entwicklern, „mit nur einer API-Anfrage eine ganze Website zu crawlen“.
Laut Cloudflares Ankündigung nutzt die neue Crawler-API einen asynchronen Betriebsmodus. Entwickler müssen nur eine Start-URL übermitteln, woraufhin ein Job-ID zurückgegeben wird. Im Hintergrund nutzt das System einen Headless Browser, um Webseiten automatisch zu entdecken und zu rendern. Entwickler können den Fortschritt und die Ergebnisse jederzeit über diese ID abfragen.
Um nahtlos in bestehende KI-Entwicklungsprozesse zu integrieren, bietet die API verschiedene Ausgabeformate. Neben traditionellem HTML kann sie direkt in Markdown, das bei großen Sprachmodellen (LLMs) sehr beliebt ist, sowie in strukturiertes JSON, das von Workers AI gesteuert wird, ausgegeben werden. Das reduziert erheblich den Zeitaufwand für Datenbereinigung und Formatkonvertierung.
Im Gegensatz zu vielen bösartigen Crawlern, die versuchen, Schutzmaßnahmen zu umgehen, setzt Cloudflare bei /crawl auf „Compliance und Transparenz“. Das offizielle System ist ein signiertes Agent-Programm, das standardmäßig strikt die robots.txt-Anweisungen der Zielseite (einschließlich Crawling-Delay) befolgt und die eigenen „AI Crawl Control“-Richtlinien respektiert.
Zudem betont Cloudflare, dass dieses Tool „sich als Roboter outet“ und nicht in der Lage ist, Cloudflares Bot-Erkennung oder Captchas zu umgehen. Dieses Design stellt sicher, dass das Crawling keine Verletzung der Website-Besitzer-Wünsche oder der Serverintegrität darstellt.
Zur Steigerung der Effizienz und Kostensenkung bietet die API mehrere fortgeschrittene Steuerungsoptionen:
Derzeit ist diese leistungsstarke Crawling-Funktion für Cloudflare Workers in der „Free“- und „Paid“-Version vollständig verfügbar. Für Teams, die regelmäßig Website-Inhalte überwachen, Forschungsdaten sammeln oder Unternehmens-KI-Wissensdatenbanken aufbauen möchten, stellt dies eine äußerst attraktive Infrastruktur-Upgrade dar.