Autor: pumpen der Geek
Große Modelle können aufzeigen, was in den letzten fünftausend Jahren in China passiert ist, können aber nicht beantworten, wie spät es ist; sie können erklären, was Quantenmechanik ist, haben aber Schwierigkeiten, eine professionell gestaltete, bildreiche PPT zu erstellen.
Warum scheinen große Modelle allmächtig zu sein, aber in der Praxis sind sie immer etwas unzureichend?
Der Grund ist einfach: Klugheit und Bildung bedeuten nicht, dass man auch arbeiten kann.
Intelligent, benötigt große Modelle, die durch eine Vielzahl von Wissensvermittlung und -lernen trainiert werden, um ein entwickeltes Gehirn zu entwickeln, das eine Frage gut beantworten kann;
Um gleichzeitig die beiden Elemente Klugheit und Fähigkeit zu erfüllen, ist es notwendig, diesem klugen Geist flexible Gliedmaßen zu geben, um “tiefe Gedanken + tiefe Lieferung” zu realisieren.
Auch deshalb ist es entscheidend, wie man große Modelle von intelligentem Denken zu einer Evolution von “intelligent und fähig” antreibt, um zu bestimmen, ob dieser Hype um große Modelle nur eine vorübergehende Erscheinung ist oder ob er die Geschichte verändern wird.
Baidu hat ein Muster angeboten.
Am 25. April, auf der Create 2025 Baidu AI Entwicklerkonferenz, präsentierte Baidu-Gründer Li Yanhong das weltweit erste Betriebssystem im Bereich Inhalte – Cangzhou OS, das in Zusammenarbeit mit Baidu Wenku und Baidu Wangpan entwickelt wurde.
Durch die umfassende Integration der von Baidu Wenkù und dem Cloud-Speicher in der Vergangenheit angesammelten Basistechnologien, Fähigkeiten und Daten kann es wie Wasser in verschiedenen Szenarien fließen und in der sinnvollsten Form sowie mit der benutzerfreundlichsten Schnittstelle eine qualitativ hochwertige Lieferung mit niedrigen Zugangshürden und End-to-End-Qualität erreichen.
Gestützt auf das Cangzhou OS ist die Vision und Erwartung von Baidu Wenku und Baidu Wangpan an die KI, jederzeit und überall auf jedem Endgerät eine echte One-Stop-End-to-End-Lieferung zu realisieren, sodass die KI “alles kann und überall ist”.
01
Cangzhou OS, lässt die KI auf ein Betriebssystem-Niveau evolutionieren
In der Technologiebranche gibt es einen Konsens, dass jede Technologie, die vom Labor wirklich in die Haushalte gelangt, einen langen Prozess der Gartner-Kurve durchlaufen muss.
In dieser Kurve hängt das Wachstum der ersten Phase hauptsächlich von den marktbegeisterten Erwartungen ab, die durch technologische Fortschritte entstehen. Doch mit den weniger optimalen Ergebnissen der Technologie wird das Wachstum dieser Phase schnell in eine Rückgangsphase übergehen, bis die für die Implementierung der Technologie erforderlichen Bedingungen allmählich reif werden und sich in einer nahezu barrierefreien, allmächtigen und allgegenwärtigen Infrastruktur manifestieren. Mit dieser wird die zweite Phase des ökologischen Ausbruchs folgen.
Eines der Zeichen für den Beginn der zweiten Phase der Softwareindustrie ist in der Regel das Erscheinen eines ausgereiften Betriebssystems, wie zum Beispiel Windows für die Computerindustrie oder iOS für die Mobiltelefonindustrie.
Wie definiert man also ein ausgereiftes Betriebssystem? Vor etwa 15 Jahren gab es in der globalen Technologiebranche eine Debatte: Warum sind Apple oder Smartphones, die alle die gleichen Funktionen bieten - Touchscreen-Bedienung, große Smartphones, telefonieren, fotografieren, Musik hören, SMS senden - zwei verschiedene Arten im Vergleich zu den früheren Funktionstelefonen?
Einer der Hauptgründe ist, dass iOS die kernel-level Stabilität und Multitasking-Fähigkeiten von MAC OS übernommen hat und daraus ein offenes Ökosystem geschaffen hat, in dem Entwickler diese grundlegenden Fähigkeiten von Apple beliebig integrieren und ihre eigenen innovativen Anwendungen erstellen können. Dies hat auch dazu geführt, dass die Definition eines Mobiltelefons nicht mehr nur von ein oder zwei Giganten wie Motorola und Nokia bestimmt wird, sondern dass das gesamte Ökosystem teilnimmt und eine riesige Industrie mit unendlichen Möglichkeiten entsteht, die das Tor zum mobilen Internet der letzten zehn Jahre geöffnet hat.
Die Technologie wird unaufhörlich voranschreiten, aber die Geschichten im Geschäftsbereich werden immer in ähnlichen Rhythmen wiederholt. Die im Mobiltelefon-Betriebssystem verifizierte Grundlogik bleibt auch im Zeitalter großer Modelle beim Aufbau von Betriebssystemen universell.
Zusammenfassend gibt es drei Punkte: vollständige grundlegende Fähigkeiten, flexible zentrale Steuerung und ein florierendes Ökosystem von Anwendungsdiensten. Dies entspricht perfekt der dreischichtigen Architektur von Cangzhou OS: Basisinfrastruktur, zentrales System und Anwendungsdienste. Der einzige Unterschied besteht darin, dass die Brücke zwischen Anwendungen und dem zentralen sowie dem Basisbereich von den bisherigen APIs auf den standardisierten, niederschwelligen MCP umgestellt wurde.
Die Basisinfrastruktur des MCP Servers hat als Kernkomponente Chatfile plus. Ihre Hauptfunktion besteht darin, durch einen wissensbasierten Rahmen Inhalte unterschiedlicher Modalitäten, Formen und Formate auf Elementeebene zu zerlegen und zu analysieren sowie eine Reihe von Werkzeugrahmenkomponenten für multimodales Verständnis, multimodale Suche und Dateikonvertierung und -analyse bereitzustellen.
Gleichzeitig haben Baidu Wenku und Wangpan drei Datenbanken aufgebaut: das öffentliche Wissensarchiv, das private Wissensarchiv und das Gedächtnisarchiv. Damit sind die über Jahre angesammelten öffentlichen Wissensdaten von Baidu Wenku (öffentliches Wissensarchiv), die von Nutzern autorisierten Wissensdaten von Wangpan (privates Wissensarchiv) und die Befehle, Nutzungsmöglichkeiten und historischen Aufzeichnungen, die Nutzer in der Bibliothek oder in Wangpan durchgeführt haben (Gedächtnisarchiv), gemeint.
Diese Daten werden oft in unterschiedlichen Modalitäten, Formen und Formaten präsentiert. Dabei bietet das öffentliche Wissensdatenbank allgemeines Wissen, während das private Wissensdatenbank und das Gedächtnis personalisierte Daten der Nutzer speichern.
Im Wissensrahmen wird das Cangzhou OS die multimodalen Inhalte in den “drei großen Datenbanken” vektorisieren und kennzeichnen, das heißt, es werden Bilder, Texte, Videos, Audios und Dokumente, die unstrukturierte Daten sind, durch verschiedene spezialisierte Modelle in mehrdimensionale Vektordaten umgewandelt, die von Computern verstanden werden können, also eine Gruppe von Tokens.
Und im zentralen System hat Baidu Wenku und Wangpan die “drei großen Werkzeuge” selbst entwickelt, nämlich den integrierten Editor (für die Bearbeitung von Dokumenten, PPT usw.), den Reader (für das Lesen von Dokumenten und PPT usw.) und den Player (für die Wiedergabe von Audio und Video) usw.
Gleichzeitig kann das Cangzhou OS über das “Dispatch Center” durch interaktive Komponenten, Intents-Modelle und Transportinfrastrukturen sowie durch die Kombination von Benutzererinnerungen und Profilierungsdaten die Benutzerintentionen verstehen und effizient Agenten zuweisen.
Auf der obersten Ebene befinden sich eine Reihe von AI-Agenten. Das “Cangzhou OS” integriert Hunderte von AI-Agenten, darunter PPT, AI-Bilderbücher, AI-Mindmaps, AI-Poster, AI-Notizen, AI-Scans, AI-Diktiergeräte usw., die Modale umfassen, die verschiedene Typen wie Bilder, Texte, Videos und Audios abdecken und umfassend Szenarien für Lernen, Büroarbeit, Freizeit und Unterhaltung abdecken. Darüber hinaus basiert es auf den Bearbeitungs-, Änderungs- und präzisen Steuerungsmöglichkeiten des integrierten Editors, um die Qualität der Suche und der Inhaltserzeugung zu verbessern und besser den tatsächlichen individuellen Aufgabenanforderungen zu entsprechen.
02
Auf dem Cangzhou OS,
Schaffe mehr „intelligente und fähige“ Agenten
Um die obersten Anwendungsschichten herum haben Baidu Wenku und Baidu Wangpan Hunderte von nützlichen AI-Agenten eingeführt, die von Hunderten Millionen Nutzern validiert wurden, und gleichzeitig eine Vielzahl von professionellen Drittanbieter-Agenten integriert, um das Anwendungsökosystem zu erweitern.
Als “One-Stop-AI-Inhaltsbeschaffungs- und -erstellungsplattform” hat Baidu Wenku über 40 Millionen zahlende Nutzer, während die monatlich aktiven AI-Nutzer 97 Millionen erreicht haben. Baidu Wangpan wurde ebenfalls zu einer “One-Stop-Inhaltsdienstplattform” aufgerüstet, die über 1 Milliarde Nutzer bedient und einen gesamten Speicherplatz von über 1000 Milliarden GB nutzt, mit über 80 Millionen monatlich aktiven AI-Nutzern. Baidu Wenku und Baidu Wangpan sind zu wahrhaftigen “Superproduktivitäten” im Zeitalter der großen Modelle geworden.
Auf der Konferenz präsentierten Baidu Wenku und Baidu Wangpan auch neue Funktionen, die auf dem “Cangzhou OS” basieren: “GenFlow Superpartner” und “AI Notizen”.
GenFlow 超能搭子 ist eine Multi-Agenten-Kooperationsfähigkeit, die von der Baidu Wenku APP eingeführt wurde. Mit der Unterstützung von “Cangzhou OS” kann die Inhaltsgenerierung mehrere Aufgaben parallel ausführen und basierend auf den umfassendsten professionellen vernetzten Informationen sowie den Gewohnheiten und Vorlieben der Benutzer verschiedene Aufgabenlieferungen abschließen.
Zum Beispiel möchte ein Benutzer eine Hochzeitsplanung durchführen, aber die anfängliche Eingabe besteht nur aus einem einfachen Satz: Ich möchte am 1. Mai eine Outdoor-Hochzeit in Hainan veranstalten, helfen Sie mir, einen Plan und Einladungen zu erstellen.
Die Anforderungen scheinen einfach zu sein, man muss nur das historische Template ausfüllen. Um jedoch die Zufriedenheit der Benutzer zu gewährleisten, ist es erforderlich, die ästhetischen Vorlieben, Budgeterwartungen und Prozesspräferenzen der Benutzer zu kennen. Außerdem müssen die Wetterbedingungen, die Besucherzahlen und die Standortverteilung in Hainan während der Feiertage berücksichtigt werden. Danach müssen diese Grafiken und Informationen mit einem PPT-Tool kombiniert werden, um einen vollständigen Plan zu erstellen. Schließlich wird basierend auf dem Plan und den ästhetischen Vorlieben der Benutzer eine vollständige Hochzeits-Einladungsposter erstellt.
Um die oben genannten Inhalte zu erreichen, müssen die historischen Chatverläufe der Benutzer, die historischen Browserverläufe sowie die Intent-Erkennung, die globale Suche und das PPT-Tool separat angesteuert werden, um die Benutzerintention zu analysieren, die Benutzerpräferenzen zu verstehen, die Tools frei zu kombinieren und schließlich einen sehr konkreten, vollständigen Plan zu erstellen, der den Ablauf, das Datum, den Ort, das Budget, das Thema, die Ausführungsdetails, den Stil und die Personalplanung umfasst.
In der Zwischenzeit müssen der Plan und das Plakat, die der Benutzer benötigt, aufeinander abgestimmt sein, was bedeutet, dass alle Informationen beider Seiten konsistent bleiben müssen und mit demselben Betriebssystem parallel ausgegeben werden.
Natürlich kann KI unmöglich auf einmal Ergebnisse erzeugen, die alle zufriedenstellen. Daher ist es notwendig, dass sowohl Hochzeitsplanungen als auch Plakate über bearbeitbare Fähigkeiten verfügen. Die Grundlage dieser Fähigkeit ist die integrierte Editor-Funktionalität des „Cangzhou OS“.
Es ist nicht schwer zu erkennen, dass GenFlow Superpartner von der tiefen Reflexion bis zur tiefen Lieferung praktisch das einzige echte „Multi-Agenten-Kollaboration“ Produkt auf dem Markt ist. Es löst nicht nur die gängigen Probleme von Multi-Agenten-Kollaborationsprodukten wie hohe Kosten, lange Generierungszeiten, geringe Effizienz, instabile Lieferung und die Unfähigkeit zur mehrstufigen Dialogoptimierung, sondern integriert sich auch direkt in die Kombination aus reifen Produkten und den von Benutzern autorisierten privaten Daten, sodass KI tatsächlich die Möglichkeit hat, das Ziel „Alleskönner, überall“ zu erreichen.
Die AI-Notizen von Baidu Wangpan sind ein wertvolles Werkzeug für unzählige Büroangestellte und Studenten, die sich auf Prüfungen vorbereiten.
AI-Notizen sind die ersten multimodalen AI-Notizen der Branche, die es ermöglichen, verschiedene Lernvideos und Notizseiten, die vom Benutzer in Baidu Wangpan gespeichert sind, in derselben Oberfläche zu integrieren, um eine reibungslose Interaktion zu erreichen. Dabei sind die Videoinhalte und Notizen eng miteinander verknüpft. Vom Ansehen des Videos über die Erstellung von AI-Notizen, zur Zusammenfassung von AI-Mindmaps bis hin zur abschließenden AI-Fragenstellung zur Überprüfung der Lernergebnisse wird der gesamte Lernzyklus des Benutzers vollständig abgedeckt.
Zum Beispiel ist die Schwierigkeit der Aufnahmeprüfung für die englische Graduiertenschule vor einiger Zeit zu einem heißen Thema geworden, und die Benutzer möchten eine konzentrierte Wiederholung des Englischunterrichts für die Aufnahmeprüfung der Graduiertenschule durchführen. AI Notes ruft zunächst die relevanten Informationen ab, die auf der Netzwerkfestplatte des Benutzers gespeichert sind, und fragt gleichzeitig die Testzentren ab, die von den öffentlichen Online-Informationen angegeben werden, um sie zu sortieren. Der ganze Prozess hört hier jedoch nicht auf, KI-Notizen kombinieren auch die vergangenen Fragen, um die endgültige Überprüfung der von ihnen selbst generierten Testpunkte durchzuführen, und nur die Testpunkte, die verifiziert wurden, können auf dieser Grundlage weiterhin Mindmaps und Testfragenvorhersagen generieren, die den Benutzern helfen, ihren Lernfortschritt zu beschleunigen.
Und in diesem Prozess erfordern die verwendeten Werkzeuge nicht weniger als die Planung einer Hochzeit. Zum Beispiel benötigt das Finden von Prüfungsorten und echten Prüfungen die Fähigkeit zur Netzrecherche, während echte Prüfungen oft im PDF- oder sogar Bildformat vorliegen und die Erläuterungen von renommierten Lehrern in Videoform präsentiert werden, was die Fähigkeit zur Analyse multimodaler Inhalte erfordert. Die endgültige Erstellung von Mindmaps und die Vorhersage von Prüfungsfragen erfordern dann die Schlussfolgerungsfähigkeit großer Modelle, die Fähigkeit zur Generierung multimodaler Inhalte sowie die Fähigkeit zur Mapping-Verknüpfung zwischen unterschiedlichen Inhalten, während gleichzeitig die absolute Genauigkeit der Inhaltserstellung gewährleistet werden muss.
Das ist die Befähigung von „Cangzhou OS“.
Natürlich unterstützt Baidu Entwickler dabei, MCP umfassend zu nutzen, weshalb das Cangzhou OS nicht nur dem internen Ökosystem von Baidu dient. Ein wichtiger Aspekt für das Wachstum des Betriebssystems ist die Offenheit nach außen, um die Innovationskraft einer breiten Entwicklergemeinschaft zu fördern.
Um den maximalen Wert von Ökosystem und Anwendungen zu entfalten, haben Baidu Wenku und Baidu Wangpan auf Basis von „Cangzhou OS“ MCP umfassend in die Verbindung von Produkten und Ökosystemen integriert. Sie haben ein dreischichtiges System aus MCP Server-Client-Host aufgebaut und die Fähigkeiten von Wenku und Wangpan in Form von MCP Server geöffnet. Über das MCP Client SDK wird es für mehr Unternehmensbenutzer, Entwickler und intelligente Anwendungen (MCP Host) einfacher, sich anzuschließen.
Das repräsentativste Beispiel ist das Samsung-Handy. Das Samsung-Handy integriert mehrere MCP-Server für das Hochladen, Herunterladen, Durchsuchen, Teilen und Verstehen von Inhalten auf der Baidu-Wenku-Cloud.
Einerseits können Benutzer über die Sprachassistentenoberfläche ihres Handys durch Sprachbefehle direkt Funktionen wie das Hochladen von Dateien zur Cloud-Sicherung, das Teilen in der Cloud, das Zusammenfassen von Dokumenten und das Beantworten von Inhalten realisieren.
Auf der anderen Seite können diese Server die Cloud-Speicherfähigkeiten des Samsung-Handys erweitern und das Problem der schwierigen massenhaften Sicherung und des Teilens von großen und vielen Dateien mit dem Handy selbst lösen.
Zum Beispiel, wenn ein Benutzer im Handy-Album den Sprachassistenten aktiviert und sagt: „Lade die Fotos von gestern, die im Aosen aufgenommen wurden, in den Baidu-Netzwerkspeicher hoch und sende Xiaomings Fotos an ihn.“ Die entsprechenden Fotos werden dann in das vom Benutzer autorisierte Netzwerkspeicher-Konto hochgeladen und ein Freigabelink wird generiert. Der Handy-Assistent ruft dann das Adressbuch auf und sendet diesen Link per SMS an das Handy der anderen Person. Sobald der Link angeklickt wird, kann der Benutzer direkt auf den Baidu-Netzwerkspeicher zugreifen oder die Fotos speichern.
Es besteht kein Zweifel, dass die Überprüfung der Zuverlässigkeit der zugrunde liegenden Fähigkeiten eines Betriebssystems nicht von der Ansammlung von Werkzeugen oder der Anzahl der High-Tech-Funktionen abhängt. Der Nutzen, die Reife und die Vielfalt der Top-Level-Anwendungsdienste sind die besten Prüfstandards für die Fähigkeiten des Betriebssystems.
03
Die Geschichte von OS hat kein Ende.
In den Kapitalmärkten ist eine Unternehmensart, die von Investoren am meisten anerkannt wird, als „Freund der Zeit“ bekannt.
Der sogenannte Freund der Zeit bedeutet, dass, wenn ein Unternehmen eine Sache richtig macht, es einfach nur weiter machen muss, um ein dauerhaftes, sich selbst antreibendes Wachstum zu erzielen, und die ökologischen Entwickler weiterhin profitieren können.
Und das Betriebssystem ist ein typischer perpetuum mobile Markt. Solange der Markt für Computer und Smartphones weiterhin besteht, wird die Geschichte der Betriebssysteme von Microsoft, Apple und Google kein Ende finden.
Das große Modell funktioniert nach dem gleichen Prinzip. Wenn “tiefes Denken + tiefe Lieferung + öffentliche und private Daten + MCP-Ökosystem” zusammenkommen, wird die Zukunft zu einer allmächtigen und allgegenwärtigen KI der neuen Ära führen, und ähnlich wie beim Kambrium wird es eine kontinuierliche Explosion neuer Arten geben.
In diesem Prozess, nach unten schauend, sind es Baidu Bibliothek, Baidu Cloud und andere, die ihre Fähigkeiten öffnen. Durch die aktive Umarmung des Ökosystems werden sie zu den Schöpfern neuer Arten von großen Modellen und den Regelsettern.
Wenn man nach oben schaut, werden unzählige neue Agenten, die auf “Cangzhou OS” basieren, erschaffen und gesehen, und sie bilden ein überwältigendes und sprudelndes neues Ökosystem von Anwendungsdiensten.
Und jetzt, alle Geschichten haben gerade erst begonnen.