DeepSeek antes del lanzamiento de la V4: características, organización y los objetivos únicos de Liang Wenfeng

金色财经_ · 2026-04-02T11:49:09+00:00

DeepSeek se encuentra en un momento de cambio. Desde la segunda mitad de 2025 hasta ahora, los miembros de DeepSeek que han dejado la empresa o han encontrado un nuevo rumbo son:- Wang Bingxuan, quien fue reclutado a finales del año pasado por Tencent y Yu Shunyu. Él es el autor principal de DeepSeek LLM (el primer modelo de lenguaje grande de DeepSeek) y ha participado en el entrenamiento de varias generaciones de modelos desde entonces.- Wei Haoran, que dejó la empresa aproximadamente antes o después del Año Nuevo Chino. Es el autor principal de la serie DeepSeek-OCR y probablemente ingresará a una gran compañía.- Guo Daya, quien dejó formalmente la empresa recientemente. Es el autor principal de DeepSeek-R1 y también podría ingresar a una gran compañía.- Además, en principios de 2025, renunció y entró en estado de jubilación Ruan Chong. Él anunció en enero de este año que se unía a la startup de conducción autónoma Yuanrong Qixing; Ruan Chong es de la primera generación del modelo de lenguaje grande DeepSeek.

金色财经_

2026-04-02 11:49:09

DeepSeek está en un punto de inflexión cambiante; desde la segunda mitad de 2025 hasta la fecha, los miembros de DeepSeek que ya se han ido y han encontrado un nuevo destino incluyen:

Wang Bingxuan, quien fue reclutado por Yao Shunyu de Tencent a finales del año pasado; es el autor principal de DeepSeek LLM (el primer modelo de lenguaje de DeepSeek) y desde entonces participó en el entrenamiento de generaciones de modelos.
Wei Haoran, que se fue aproximadamente por la época de la Fiesta de la Primavera; es el autor principal de la serie DeepSeek-OCR y posiblemente se incorporará a alguna gran empresa.
Guo Dayaya, quien se desvinculó formalmente recientemente; es el autor principal de DeepSeek-R1 y posiblemente se incorporará a alguna gran empresa.
Y Ruan Chong, que dejó DeepSeek a principios de 2025 para entrar en estado de jubilación; este año, en enero, anunció oficialmente que se incorporó a la empresa de startups de conducción autónoma Yuanrong Qixing. Ruan Chong es un miembro veterano que se unió desde la etapa de Fanfang; es un contribuidor clave de los logros multimodales de DeepSeek como Janus-Pro, entre otros.

DeepSeek no había recibido financiación previamente, y no existía una valoración clara de la compañía. Cuando el valor de mercado o las valoraciones de otras empresas de IA se disparan, Liang Wenfeng está buscando la manera de responder las dudas de los miembros del equipo: ¿cuánto vale realmente la empresa? Esto determina el valor que realmente tienen las opciones firmadas por los empleados.

Desde el otoño de 2025, Liang Wenfeng también empezó a enfocarse más en la productización y la comercialización. DeepSeek ya cuenta con un equipo de productos de algunas decenas de personas, pero aún no se ha aventurado en direcciones populares como la programación con IA o los agentes de uso general; en el lado C, todavía solo tiene el producto típico de chatbot.

El nuevo tema para Liang Wenfeng también incluye la gestión del tamaño del equipo. La cantidad de personas en DeepSeek ya supera a la de Fanfang, y es la organización más grande que él ha gestionado.

Lo que se cierne sobre todos estos cambios es que DeepSeek V4 todavía no se ha lanzado oficialmente.

En realidad, alrededor de enero de 26, ya se había entregado una versión de pequeños parámetros de V4 a algunas comunidades de frameworks open source para que empezaran la adaptación. Según las expectativas relativamente optimistas previas, la versión de grandes parámetros de V4 originalmente podría haberse publicado y open source a mediados de febrero, por la época de la Fiesta de la Primavera. Según se informa, es posible que DeepSeek V4 se lance en abril.

Alguien se va; más personas eligen quedarse. DeepSeek está ajustándose, pero también tiene muchas cualidades que no cambian.

Es el único “laboratorio central” de IA en el mundo que “no se obsesiona con competir”. Mientras que los desarrolladores de IA de empresas en China y Estados Unidos como Google, OpenAI, xAI y ByteDance, trabajan entre 70 y 80 horas semanales, la mayoría de los empleados de DeepSeek salen de la oficina alrededor de las 6 a 7 de la tarde; por la mañana tampoco marcan entrada.

Liang Wenfeng considera que el tiempo en el que una persona puede producir con alta calidad en un día difícilmente supera las 6 a 8 horas.

DeepSeek no tiene una evaluación de desempeño clara ni DDL (fecha límite). Esta organización concisa y con una densidad de talento extremadamente alta sigue manteniendo la “división natural” del trabajo: los investigadores pueden formar equipos libremente o dedicarse en solitario a explorar algunas ideas nuevas.

“Además de la línea principal, también hay gente en DeepSeek que hace investigaciones de largo plazo que quizá no den resultados durante un año”. “DeepSeek es un lugar donde de verdad hay personas que quieren hacer investigación; en China, e incluso en el mundo, se puede encontrar el mejor sitio posible”. Así lo dijeron personas cercanas a DeepSeek.

Por supuesto, DeepSeek también tiene una característica más: la del misterio. Especialmente después de 2025, además de publicar informes técnicos de forma abierta, desde el fundador Liang Wenfeng hasta los miembros del equipo, todo el grupo ha “guardado silencio”. En los medios sociales o comunidades donde participan activamente los profesionales de la IA, es difícil escuchar su voz.

En este reportaje, presentamos las características de DeepSeek, sus prioridades de trabajo, la manera en que funciona su organización y los cambios que está experimentando este equipo de menos de 200 personas, conocidos a través de diversos canales. El origen de todo ello es un objetivo único que Liang Wenfeng estableció para DeepSeek.

Liang Wenfeng: hacer pocas cosas, llevarlas al extremo

Los objetivos de IA de Liang Wenfeng se remontan mucho antes de que DeepSeek se fundara en 2023.

En 2016, Hasabis, el proponente de AGI y fundador de DeepMind, formó un equipo de trading cuantitativo con la intención de generar ingresos para DeepMind cuando la gente quería que DeepMind se independizara de Google. Al final, no lograron ganar dinero.

Ese mismo año, Liang Wenfeng, graduado en pregrado y máster de la Zhejiang University, llevaba ya 8 años dedicándose a inversiones cuantitativas. En 2015 fundó Fanfang; en 2016 empezó a ejecutar trading en tiempo real de deep learning usando GPU; a finales de 2017 logró “virtualmente automatizar todos los enfoques de trading mediante IA”; y en 2019 comenzó a construir el primer clúster de cómputo de Fanfang, con “Firefly 1”, que tenía 1100 GPUs.

También en 2019, la IA de Fanfang (Fanfang Artificial Intelligence Research Co., Ltd.) se registró formalmente. Ahora, Luo Fuli, responsable de IA en Xiaomi, y Ruan Chong, que se incorporó recientemente a Yuanrong, son ambos personas que se unieron a Fanfang después de ese momento, para luego pasar a DeepSeek en 2023.

Como una persona que se hizo financieramente independiente antes de los 30 años, la vida de Liang Wenfeng es sencilla y misteriosa.

En la impresión que tienen quienes lo rodean, suele usar la misma ropa durante varios días. En Hangzhou vivió durante mucho tiempo en hoteles; en Beijing, donde la mayoría de los investigadores y desarrolladores de DeepSeek viven alquilando, vive en un alquiler. Es de complexión delgada, con hábitos de ejercicio; y entre los hobbies que se sabe que le gustan están actividades al aire libre como el senderismo.

Jen-Hsun Huang invita a empleados de Nvidia a su casa, para tomar unas copas y charlar de temas cotidianos, y con mucha alegría muestra sus autos deportivos. Pero Liang Wenfeng no participa en actividades de team building trimestrales; rara vez se reúne con los miembros para cenar, y en el gran team building de fin de año solo aparece cuando da un discurso, sin participar en todo el proceso.

En 2022, un empleado de Fanfang, “un cerdito pequeño y ordinario”, donó personalmente 138 millones de yuanes a instituciones benéficas. Más tarde, mucha gente adivinó que ese cerdito podría ser Liang Wenfeng. La respuesta del personal de Fanfang fue: “Las donaciones de los empleados son anónimas; y dentro de la empresa tampoco se sabe la identidad real del cerdito”.

En el ámbito de trabajo, Liang Wenfeng solo hace pocas cosas. No hace cosas que hacen la mayoría de los CEO de startups, como levantar rondas de financiación.

En 2023, Liang Wenfeng vio en un entorno reducido a algunos inversores. Pero por lo que sabemos, planteó un requisito poco habitual: similar a los acuerdos de inversión de OpenAI y Microsoft, Liang Wenfeng quería que los inversores aceptaran un tope de retorno. En esta ronda de conversaciones, ningún fondo invirtió en DeepSeek.

Durante los dos años siguientes, la financiación de modelos de gran lenguaje en China se volvió intensa; aparecieron con frecuencia rondas multimillonarias de varios cientos de millones de dólares. Sin embargo, Liang Wenfeng dejó de reunirse con inversores y, además, ni siquiera estableció nuevos contactos. Incluso cuando no era una “ventana de financiación”, la mayoría de los fundadores no rechaza conocer a socios de primera línea de instituciones; pero Liang Wenfeng rechazó la mayoría de solicitudes de este tipo.

Casi todo su tiempo lo invirtió en esas pocas cosas que él cree que deberían centrarse, y lo hace con minuciosidad, hasta el extremo.

Uno de los factores clave del éxito previo de DeepSeek fue “dar toda la fuerza a un solo agujero”: definió explícitamente que los modelos de lenguaje eran una prioridad más alta, y no hizo direcciones populares como la generación multimodal.

En la línea principal que eligieron, Liang Wenfeng hace “hands on” y se sumerge en los detalles. Aprende sobre algoritmos, arquitectura, Infra y datos a partir de miembros del equipo con diferentes antecedentes; y también participa él mismo en discusiones de detalles tanto del modelo como del producto.

Mucha gente que ha conocido a Liang Wenfeng menciona que no tiene “presencia de CEO” ni el supuesto “campo” de un genio; más bien se parece a un investigador, y cuando habla con la gente, lo que más discute son problemas técnicos concretos.

El socio fundador de Oasis Capital, Zhang Jin Jian, compartió un pequeño cuento en 《Those Who Lived It Out》: le preguntó al fundador de MiniMax, Yan Junjie, “¿Hay alguien más enfocado que tú?”. Yan Junjie contó que una vez había quedado para cenar con un amigo que no había visto antes; llegó temprano y vio a un chico con camiseta, y pensó que era el asistente. La otra persona no se presentó; preguntó a Yan Junjie muchas cuestiones técnicas. Después de media hora, Yan Junjie preguntó: “¿Cuándo viene el Sr. Liang?”. El otro respondió: “Soy Liang Wenfeng”.

Organización de DeepSeek: plana, división transversal y sin horas extra

En consonancia con el estilo de Liang Wenfeng, la organización de DeepSeek es extremadamente plana: en cada eslabón hay división transversal del trabajo, expansión de tamaño prudente y no hay horas extra.

Cuando se creó Fanfang, Liang Wenfeng tenía socios; pero DeepSeek no tiene un segundo al mando, y especialmente en el equipo de investigación, solo hay dos niveles: Liang Wenfeng y otros investigadores. Liang Wenfeng toma las decisiones importantes y asume la mayor cantidad de resultados.

Esta parte del equipo de investigación ahora tiene aproximadamente más de 100 personas; es como un gran laboratorio. Los investigadores de DeepSeek, nacidos principalmente alrededor de 2000, están acostumbrados a llamar “el jefe Liang” a Liang Wenfeng, que nació en 1985. Este jefe está más cerca de un mentor: coordina el desarrollo e integra recursos a nivel organizativo, y también hace investigación concreta; en los resultados compartidos, firma como autor de correspondencia.

Lo más involucrado personalmente de Liang Wenfeng es el equipo de arquitectura del “base model”; después de discutir en profundidad con el equipo, determina la versión de arquitectura para cada generación del base model. Este equipo tiene unas decenas de personas; son la fuerza principal del preentrenamiento.

Muy relacionado con la arquitectura del base model está el equipo de Infra y el equipo de datos, cada uno con unas decenas de personas. El equipo de Infra en algunas compañías funciona más como un “proveedor interno” para completar demandas de algoritmos; pero en DeepSeek, el equipo de Infra participa en las discusiones y da sugerencias ya en la etapa de fijación de versión antes del entrenamiento del modelo.

La estrecha colaboración entre estos módulos hace que los límites del equipo de DeepSeek no sean tan nítidos, formando la “división transversal del trabajo”. En realidad, esta forma de colaboración es la que mejor encaja con las características del entrenamiento de modelos: en la etapa de experimentación y de fijación de versión, hay que considerar la selección de datos y la implementación de Infra.

Liang Wenfeng es el detector y el agente que conecta estos diferentes módulos. Asiste a las reuniones de cada equipo, conoce el progreso general y los cuellos de botella. La mayoría de las reuniones semanales de los equipos de DeepSeek también están abiertas a personas de otros equipos, con posibilidad de asistir de forma entre grupos.

El estilo de “una primera persona” que se sumerge en los detalles y la estrecha colaboración que se forma de manera espontánea es difícil de replicar en organizaciones grandes. Por eso DeepSeek amplía con mucha cautela el tamaño del equipo central de I+D.

Un punto muy particular en el círculo global de la IA es que DeepSeek no hace horas extra. No marcan entrada, no hay evaluación de desempeño clara y, en el día a día, la mayoría de los miembros salen de la oficina alrededor de las 6 a 7. DeepSeek también ofrece a los empleados algunos beneficios gratuitos después del trabajo, como clases de deportes con pelota y reembolsos de instalaciones deportivas.

Liang Wenfeng considera: el tiempo en el que una persona puede trabajar con alta calidad todos los días difícilmente supera las 6~8 horas. Con la fatiga de las horas extra, los juicios estúpidos desperdician recursos computacionales valiosos; no compensa.

En cuanto a la composición de personal, antes DeepSeek casi no contrataba por “sociedad social” (lateral) en gran escala; se centraban principalmente en retener recién graduados y becarios. A principios de 2025, 《LatePost》 había organizado un resumen de 172 investigadores (incluidos becarios) que participaron entonces en tres generaciones de modelos de DeepSeek (LLM, V2 y V3&R1) y encontró los expedientes de 84 de ellos: más del 70% eran estudiantes de pregrado y maestría; más del 70% tenían menos de 30 años.

Antes de V3 y R1, DeepSeek estaba con aproximadamente 1/10 de la cantidad de personal de las grandes fábricas y aproximadamente la mitad del tiempo de trabajo promedio de esas personas, con una concentración y enfoque extremadamente altos, logrando situarse en la primera franja global de modelos de gran escala.

Pero a medida que los caminos que deben explorarse para alcanzar capacidades IA de primer nivel se vuelven cada vez más numerosos, mantener ese tamaño organizacional, esa forma de comunicación y ese ambiente de colaboración cada vez resulta más difícil.

En los últimos 15 meses, DeepSeek siguió siendo quien es, mientras el mundo exterior cambiaba con brusquedad

Después de que V3 y R1 explotaran a principios de 2025, DeepSeek no se apresuró a “seguir con fuerza” para lanzar un nuevo as en la manga; en cambio, siguió desarrollando en la dirección en la que estaban enfocados. Los logros ya publicados, en términos generales, se dividen en tres tipos:

Uno es la optimización de eficiencia: exprimir al máximo la potencia de cómputo de GPU, para producir inteligencia que maximiza la salida por unidad de cómputo. Esto incluye todo un conjunto de infra de entrenamiento e inferencia de código abierto liberado por DeepSeek en el ciclo de “Open Week” a principios de 2025, que abarca kernels de inferencia, bibliotecas de comunicación, bibliotecas de multiplicación de matrices y marcos de procesamiento de datos. (Nota: kernel es el código que ejecuta el cómputo de más bajo nivel en GPU, usado para implementar operaciones núcleo como la multiplicación de matrices.)

También hay mejoras continuas del mecanismo de “atención”: como NSA (atención dispersa nativa) a principios de 25, y luego DSA (atención dispersa dinámica). Sumado a MLA (atención latente multi-cabeza) en V2 más temprano, su objetivo común es manejar contextos más largos sin incrementar de manera sustancial el cómputo.

Desde DeepSeek-V3.2 actualizado a finales de 25 de septiembre, también se puede ver que DeepSeek incluso cambió su biblioteca de operadores de lenguajes populares como CUDA y Triton a TileLang. CUDA es el lenguaje de más bajo nivel provisto por Nvidia; Triton es un proyecto de código abierto de OpenAI; y TileLang es un proyecto de código abierto iniciado por el equipo de Yang Zhi de la Universidad de Pekín.

Dos es la mejora de la arquitectura del modelo, como mHC (conexiones súper-conectadas de restricción popular) publicada a principios de 26, destinada a mejorar la estabilidad en el entrenamiento a gran escala; y Engram, que construye memoria a largo plazo fuera del modelo. La opinión general del sector es que mHC se utilizará en el entrenamiento de V4.

Tres son algunas exploraciones “no convencionales”, como DeepSeek-OCR: convertir texto en imágenes y luego ingresarlas al modelo. Esta idea hace que el modelo entienda párrafos y jerarquías de una forma más cercana a “ver texto” como lo hace una persona, mejorando su capacidad para comprender documentos complejos.

Dentro de DeepSeek, hay más intentos de este tipo en curso, incluyendo aprendizaje continuo, aprendizaje autónomo, etc.

Liang Wenfeng también reclutó algunos asesores con antecedentes en neurociencia y ciencia del cerebro en 2025, con la intención de explorar mecanismos de aprendizaje más cercanos al cerebro humano.

Al mismo tiempo, el entorno de IA externo cambió drásticamente de 2025 hasta hoy, y las dos líneas principales de competencia más seguidas son:

Uno es el modelo y las aplicaciones basadas en capacidades de coding, el enfoque agentic. Este es el campo de batalla con más competencia actual entre Anthropic y OpenAI; se forman Opus 4.6 vs GPT-5.4 como los dos modelos más nuevos, y el enfrentamiento de productos Claude Code vs Codex. El OpenClaw de los camarones pequeños, que se volvió viral desde principios de año, también es la forma más reciente de aplicación agentic.

Dos es la generación multimodal. Este campo ha salido a la palestra repetidamente por “efectos de magia”: el OpenAI GPT-4o de la primavera de 2025, el Google NanoBanana de otoño, y la Byte Seedance 2.0 antes de la Fiesta de la Primavera de 2026. Y la generación de video también está relacionada con un rumbo aún más avanzado: el “modelo del mundo”.

DeepSeek primero no invirtió mucho en generación multimodal, porque Liang Wenfeng cree que la generación multimodal no es la línea principal de la inteligencia.

En la dirección agent, DeepSeek-V3.2 reforzó capacidades de los agentes; pero la frecuencia general de iteraciones de DeepSeek ha sido más baja que después de R1, y en un momento se sintieron profundamente ansiosos por otros “pequeños tigres”.

De inicios de 2025 hasta hoy, Zhipu, MiniMax y Kimi respectivamente han actualizado 5 versiones, 4 versiones y 3 versiones de modelos, orientados a refuerzo para agentes o coding.

Según los datos de OpenRouter, en los últimos 30 días (24 de febrero-26 de marzo), entre los 10 modelos con más tokens consumidos por aplicaciones OpenClaw llamadas mediante OpenRouter, 6 modelos provienen de China, y DeepSeek-V3.2 está en el puesto 12. (Nota: OpenRouter refleja más el uso de usuarios individuales y pequeños desarrolladores, y solo puede usarse como referencia para el consumo total de tokens.)

El objetivo de DeepSeek no es el más mainstream: algunos se van, otros se quedan

La excentricidad de DeepSeek, vinculada al objetivo de AGI con el que Liang Wenfeng está de acuerdo, además de perseguir el límite superior de la inteligencia de los grandes modelos, tiene otras dos tareas que son muy importantes para él:

Uno es construir grandes modelos basados en el ecosistema nacional.

DeepSeek invertirá en la adaptación a GPUs nacionales para resolver la realidad de una oferta limitada de GPUs de alto rendimiento. Por ejemplo, después de actualizar V3.1 en agosto del año pasado, mencionaron que UE8M0 FP8 que usan—una especie de formato de compresión de datos—“está diseñada para los chips nacionales de la próxima generación”. El reemplazo de Triton mediante TileLang de código abierto nacional, mencionado antes, también es un trabajo de este tipo, que les permite tener más iniciativa en las capas base.

Al conversar con profesionales de IA, Liang Wenfeng también mencionó una hipótesis así: “¿Se puede usar una parte del cómputo existente para lograr toda la inteligencia que se tiene ahora?”

Dos es la “innovación de estilo original”: hacer algunas direcciones que las grandes fábricas u otras startups no van a intentar, ni quieren intentarlo.

Por ejemplo, en la segunda mitad de 2024, DeepSeek comenzó la serie Janus, intentando unificar la comprensión y generación multimodal. DeepSeek también hizo la serie Prover, explorando pruebas formales. También hubo OCR en 25, y además aprendizaje continuo y exploraciones de modelos de cerebro bioinspirado que continúan internamente.

Como fundador, lo que más le importa a Liang Wenfeng no es solo el rendimiento del modelo en sí, sino también esos hallazgos más esenciales y originales en el camino de buscar ese rendimiento.

Pero esto no coincide del todo con algunas expectativas que el mundo exterior tiene de DeepSeek: algunas personas esperan que cada vez que DeepSeek se mueva, sea tan sorprendente como R1. Eso es un poco difícil de cumplir y tampoco se ajusta a las reglas técnicas.

Liang Wenfeng puede no preocuparse por las expectativas externas, pero tiene que afrontar y manejar las expectativas internas.

Para más investigadores jóvenes, hacer más investigación de vanguardia también implica asumir más incertidumbre. Una ruta más segura sería seguir participando en los modelos más fuertes de la industria, firmar en esos informes técnicos que reciben atención, y contar con recursos de GPU abundantes que respalden experimentos e investigación exploratoria.

Además del prestigio y la influencia, la capacidad de atraer a los miembros de DeepSeek también proviene del compromiso de riqueza elevada.

El salario absoluto de DeepSeek no es bajo, pero lo de afuera es más alto. Algunos cazatalentos nos dijeron que los competidores han ofrecido “números difíciles de rechazar”, “no pasa nada si es el doble o el triple”, y “el paquete total con números de ocho cifras (como acciones u opciones)”.

Hay un nuevo cambio: MiniMax y Zhipu se han listado, con subidas fuertes del precio de las acciones; y el IPO de Kimi también se pone en agenda. Esto también ha generado más dudas en algunos miembros de DeepSeek sobre esas opciones que tienen en el equipo pero sin un precio claro.

Ante invitaciones de gran magnitud, más personas eligen quedarse. Reconocen la manera de Liang Wenfeng de perseguir el AGI; están dispuestas a explorar cosas que no se guían por la competencia; y también se han acostumbrado al ambiente de investigación relativamente relajado y sosegado de DeepSeek.

Algunos rumores recientes del exterior no son precisos: aunque hubo cambios en el equipo de DeepSeek, no se produjo una fuga en bloque de grupos.

“Los que se quedan, en cierto grado, todavía tienen algo de idealismo”. Así lo dijo una persona cercana a DeepSeek. Liang Wenfeng piensa que, además de impulsar la línea principal de mejorar la eficiencia y el rendimiento del modelo, hay que hacer algunas direcciones cuyo retorno en el momento no esté claro, porque “esas empresas de afuera con más cómputo, como Google u OpenAI, internamente seguramente están probando todo tipo de direcciones”.

Hasta ahora, debido al equipo relativamente pequeño de DeepSeek y al entorno transparente y plano desde su fundación, los miembros todavía pueden dividir el trabajo de manera natural: a veces se empieza una nueva dirección porque tres o cinco personas sienten que una idea es buena, y entonces la hacen juntos.

Esto coincide con la descripción de Liang Wenfeng al aceptar una entrevista con 《Dark Tide》 en 2024: “En general, no hacemos una división de tareas por adelantado”, “cada persona tiene experiencias de crecimiento únicas y vienen con ideas; no hay necesidad de empujarlas… pero cuando una idea muestra potencial, también ajustamos recursos desde arriba hacia abajo”.

“DeepSeek es un lugar donde de verdad hay personas que quieren hacer investigación; en China, e incluso en el mundo, se puede encontrar el mejor sitio”. Así lo dijeron personas cercanas a DeepSeek.

Cambiar el mundo también es lo que el mundo cambia

El entendimiento y la descomposición únicas del objetivo de AGI son una de las virtudes de DeepSeek, y también la razón por la que ahora enfrenta tensiones internas. Porque Liang Wenfeng valora la construcción de ecosistemas y la exploración original, mientras que en la industria, generalmente, se considera “mantenerse como el más fuerte” como la primera prioridad; hay coincidencias, pero no son objetivos totalmente iguales.

Además, a medida que el desarrollo de grandes modelos ha llegado hasta hoy, los estándares de “ser fuerte” y de “originalidad” se han vuelto cada vez más borrosos y subjetivos.

Las puntuaciones de los benchmarks ya no pueden medir completamente el nivel de los modelos. Especialmente después de entrar en la competencia de modelos agentic, se vuelven más importantes los “reach” del producto y los casos de uso de cola larga que trae, además de la diversificación de datos; este es precisamente un área donde DeepSeek, al enfocarse en el desarrollo del modelo, no había invertido mucho antes.

El V4 que se publicará pronto, probablemente siga siendo el modelo open source más fuerte, pero es difícil que sea de nivel que aplaste a todos. Porque ahora, para “ser fuerte”, los estándares y las sensaciones de los diferentes desarrolladores y usuarios en distintos escenarios se están volviendo cada vez más diversos.

Qué exploraciones son originales y valiosas, siempre ha sido debatido y discutido por todo tipo de opiniones; depende de la experiencia, el juicio y la intuición de diferentes investigadores, lo que se llama “buen gusto técnico”.

La forma de validar el buen gusto es mediante experimentos, y la cantidad y escala de experimentos está limitada por los recursos de GPU. En comparación con los pares, DeepSeek no tiene tanto cómputo.

Al final, ya sea la base del ecosistema de los grandes modelos o el proceso de perseguir el rendimiento del modelo y explorar direcciones que otros equipos quizá no prueben, el retorno de estos trabajos que Liang Wenfeng valora es extremadamente incierto.

La investigación de vanguardia debería asumir esta incertidumbre; pero eso no se alinea del todo con la realidad de que los recursos de cómputo son limitados, ni con las expectativas externas de que DeepSeek pueda seguir sorprendiendo e incluso “aplastar” a otros de manera continua.

Liang Wenfeng se dio cuenta de que tenía que cambiar. Recientemente empezó a buscar maneras de dar una valoración a la empresa, y proporcionar a los miembros del equipo expectativas más claras.

DeepSeek también invertirá más en productos. Hemos revisado todas las publicaciones de anuncios de contratación publicadas por un HR de DeepSeek en redes sociales desde diciembre de 2024 hasta hoy; en el anuncio de contratación más reciente a mediados de marzo, DeepSeek mencionó por primera vez nombres específicos de otros productos, y para reclutar una persona en la dirección agent: “product manager de modelos y estrategia”：

Seguimiento continuo de las tendencias de la industria, familiaridad y uso profundo de agentes conocidos como Claude Code, OpenClaw, Manus…

A continuación, seguramente se verán más movimientos de DeepSeek en productos de agentes.

A principios de 2025, con el espíritu generoso del open source y la maravilla de lograr mucho con poco, DeepSeek sacudió a China y al mundo, cambió el mundo: hizo que un grupo de pares invirtiera más energía en la tecnología de modelos, inspiró modelos posteriores como Kimi K2 y K2-thinking, e incluso dio origen directo a algunos equipos nuevos, como MiroMind apoyado por Chen Tianqiao.

Que algo sea una “maravilla” es porque no ocurre a menudo: es un evento de baja probabilidad. En el entorno de China que celebra la competencia y el hablar con resultados, que exista DeepSeek, que se atreve a perseguir objetivos únicos, en sí mismo es un evento sorprendente de baja probabilidad.

Las personas que han tenido contacto con Liang Wenfeng lo describen así: “Es alguien especialmente resistente al ruido”.

Después de que R1 estallara en 2025, Liang Wenfeng mostró una indiferencia serena hacia el halago y el acoso. Y ahora enfrenta una prueba de otro tipo: cuando la competencia externa se intensifica, distinguir el ruido de la señal, mantenerse en lo que hay que mantener y cambiar lo que hay que cambiar.

“Una persona que se inclina hacia el trabajo quizá no necesariamente se ríe al final en medio del tumultuoso mercado volátil, pero solo con la aparición de más compañías como DeepSeek, la tecnología china tendrá la posibilidad de pasar de ‘copiar’ a liderar”. Así dijo un profesional.

Esto pertenece al trabajo de Liang Wenfeng y DeepSeek. Y para más personas que han sido sacudidas por esta empresa, lo que pueden hacer es muy simple: dejar a un lado la narrativa de titulares sensacionalistas, y observar una compañía y la innovación tecnológica con una mentalidad más normal.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.