El equipo se pronunció tras el lanzamiento de Gemini3: Tres grandes puntos de innovación y la ley de escala sigue siendo válida

Autor: Wuji, editor especial de Tencent Technology

El 19 de noviembre, hora de Beijing, después de que Google lanzara la serie de modelos Gemini 3, el podcast tecnológico «Hard Fork», propiedad del New York Times, lanzó un programa especial en el que los presentadores Kevin Roose y Casey Newton realizaron una entrevista exclusiva con el director ejecutivo de Google DeepMind, Demis Hassabis, y el líder del equipo Google Gemini, Josh Woodward.

Esta entrevista se centra en el último modelo insignia de IA de Google, Gemini 3 (en realidad, la versión Pro de la serie Gemini 3.0).Este es el primer lanzamiento histórico de Google ampliamente considerado por la industria para recuperar su liderazgo en tecnología y productos después del fracaso de Bard y la fase de recuperación de Gemini 1.x y 2.x.

Los dos líderes explicaron los avances de Gemini 3 en razonamiento de múltiples pasos, generación de código (especialmente front-end y «codificación de atmósfera») y generación dinámica de interfaces interactivas. Hicieron hincapié en que Google ha llevado rápidamente los modelos más potentes a miles de millones de productos de usuario, como la búsqueda, Gmail y Workspace, remodelando las barreras competitivas.

Puntos clave de la entrevista:

Gemini 3 está totalmente en línea con la trayectoria de desarrollo esperada,La inteligencia artificial general (AGI) todavía necesita de 5 a 10 años y de 1 a 2 avances importantes en la investigación;
Las ventajas completas de Google en eficiencia, costo y distribución le permiten ganar en cualquier entorno de mercado;
La burbuja de la IA existe parcialmente, pero Google tiene la doble garantía de monetización a corto plazo y una nueva vía a largo plazo de un billón de niveles..

La siguiente es una versión condensada de la entrevista.

Rodas: Kathy, hoy agregaremos temporalmente un episodio especial, el tema es el lanzamiento de Gemini 3.

Newton: Sí, Kevin. Este modelo ha sido muy esperado en los círculos de inteligencia artificial de Silicon Valley y finalmente podemos experimentar el producto terminado real con nuestras manos.

Rodas: Hay dos razones principales por las que rompimos el ritmo habitual de lanzamientos de los viernes y grabamos este número específicamente.Primero, tuvimos una oportunidad de entrevista exclusiva con dos líderes principales de IA en Google (el director ejecutivo de DeepMind, Hassabis, y el vicepresidente del equipo Gemini, Woodward).

En segundo lugar, el lanzamiento de Gemini 3 ha atraído una gran atención en la industria.Escuchamos a fuentes internas de varios laboratorios decir que este modelo ha logrado avances en algunas áreas clave y puede representar una amenaza sustancial para los competidores.Google ha sido visto como un perseguidor durante los últimos dos años, y ahora la pregunta es: ¿han vuelto a tomar la delantera?

Newton: Antes de entrar oficialmente a la entrevista, presentaremos brevemente la información conocida. Google celebró una sesión informativa a puerta cerrada antes del lanzamiento.Las nuevas capacidades más llamativas de Gemini 3 incluyen: capacidades de codificación y «codificación ambiental» muy mejoradas; y una nueva función de generación de interfaz interactiva.

Ya no solo genera texto, sino que genera directamente interfaces interactivas personalizadas para los usuarios.Por ejemplo, cuando un usuario pregunta sobre la vida de Van Gogh, el modelo generará instantáneamente una página de aprendizaje completa que contiene imágenes, líneas de tiempo y elementos interactivos;otro ejemplo es generar una calculadora de hipotecas para propiedades por valor de más de un millón de dólares. Estas características marcan el salto de “responder preguntas” a “crear experiencias”.

Rodas: Gemini 3 supera significativamente a Gemini 2.5 Pro en todos los puntos de referencia públicos.Por ejemplo, en un conjunto de problemas interdisciplinarios a nivel de doctorado llamado «El último examen de la humanidad», el primero obtuvo sólo un 21,6%, mientras que el segundo mejoró directamente al 37,5%.La postura general de Google es que cualquier tarea que puedas realizar en ChatGPT, Claude u otras versiones anteriores de Gemini se puede realizar mejor en Gemini 3.

Newton: También mostraron una demostración temprana de Gemini Agent: el modelo puede acceder profundamente al buzón del usuario, comprender el contenido de todos los correos electrónicos, clasificar automáticamente, formular respuestas e incluso ayudar a los usuarios a limpiar completamente sus bandejas de entrada.

Además, Gemini 3 estará disponible en la aplicación Gemini y en el modo AI de búsqueda de Google a partir de esta semana;Los estudiantes universitarios estadounidenses recibirán acceso gratuito a la versión premium durante un año.La palabra clave que Google enfatiza repetidamente es «Aprende cualquier cosa», que en realidad posiciona a Gemini como la herramienta de educación personalizada definitiva.

Rodas: Demis, Josh, bienvenidos a Hard Fork.Hace dos años, Sundar Pichai comparó al Bard con «un Honda Civic modificado» corriendo en una pista contra rivales más poderosos. Entonces, ¿qué tipo de coche es el Gemini 3?

hassabis: Ojalá fuera mucho más rápido que el Honda Civic.No estoy acostumbrado a usar la analogía del auto, tal vez más bien como un corredor de carreras profesional (Drag Racer).No está diseñado para la conducción diaria ni para carreras en circuito, es pura potencia concentrada en un propósito específico. Representa la combinación perfecta de nuestros mejores resultados de investigación y potencia informática a gran escala.El objetivo es mostrar un poder explosivo instantáneo incomparable en esta competencia a la vanguardia de la inteligencia.

Rodas: Esto es interesante.En comparación con todos los modelos de IA anteriores, ¿qué cosas nuevas puede hacer Gemini 3 en un nivel específico? Por favor, danos algunos ejemplos cuantitativos y prácticos.

madera: Hay tres puntos que más destacan.En primer lugar, en el razonamiento de varios pasos, puede pensar en más pasos al mismo tiempo y hemos elevado su confiabilidad a un nivel completamente nuevo.Los modelos de la generación anterior a menudo «perdían el hilo de sus pensamientos» o alucinaban al llegar a los pasos 5 y 6 de derivación lógica compleja, mientras que Gemini 3 puede completar de manera confiable de 10 a 15 pasos de tareas de razonamiento coherente, como planificación fiscal compleja, planificación general y reserva de viajes transfronterizos, o depuración integral de un sistema enorme con millones de líneas de código.

En segundo lugar, generará por primera vez una nueva interfaz interactiva a gran escala.Lo que los usuarios necesitan ya no son simples respuestas de texto, sino componentes de software personalizados.Por ejemplo, si le pregunta: «Ayúdeme a diseñar un panel que pueda realizar un seguimiento de todas mis carteras de inversiones», generará una interfaz de panel interactiva y operativa en tiempo real, en lugar de un montón de texto que describe cómo crear un panel.

En tercer lugar, invertimos mucho en capacidades de codificación, especialmente en la interfaz y en la «codificación ambiental», lo que significa que puede generar código de interfaz de usuario completamente funcional y bellamente diseñado basado en indicaciones de lenguaje natural.Los próximos productos nuevos, como Google Antigravity, también lo demostrarán plenamente, con modelos capaces de cambiar dinámicamente el diseño y la funcionalidad de la interfaz de usuario según el contexto.

Newton: Mucha gente cree que para los usuarios normales, el caso de uso del «chat» está básicamente resuelto.Ni siquiera se les ocurrió ninguna pregunta nueva que hiciera que las respuestas de Gemini 3 fueran cualitativamente diferentes de las de su predecesor. ¿Qué opinas de esta percepción?

madera: Entiendo este punto de vista.A primera vista, la tasa de precisión de las preguntas y respuestas básicas ya es muy alta.Pero la verdadera diferencia es la confiabilidad, la integración y la presentación de la información. Las respuestas de Gemini 3 serán más concisas, más expresivas y la información se presentará de una manera más comprensible.Este es un cambio que la mayoría de la gente percibirá de inmediato.

Más importante aún, el modelo comienza a integrarse profundamente con las fuentes de datos de otros usuarios, como vincularse con otros productos en el ecosistema de Google, trascendiendo verdaderamente el modelo simple de preguntas y respuestas y convirtiéndose en el «administrador digital» del usuario.Entiende el contexto de todo su correo electrónico para que, al redactar una respuesta, no solo responda la pregunta sino que también adapte el tono y el contenido según su estilo anterior y su relación con el destinatario.

hassabis: Estoy totalmente de acuerdo. Su fiabilidad, estilo y personalidad se han refinado para hacerlo más simple y directo.En escenarios como el de la «codificación de la atmósfera», se ha cruzado el umbral de lo práctico.Se trata de una transformación de «asistente inteligente» a «colega inteligente».Personalmente planeo usarlo para volver a la programación de juegos durante las vacaciones de Navidad, y ahora no solo puede escribir código funcional, sino también brindar asesoramiento arquitectónico en las primeras etapas del diseño.

Rodas: Demis, cuando lo entrevistamos en mayo de este año, consideró que AGI aún tardará entre 5 y 10 años y puede requerir varios avances importantes.¿Gemini 3 cambia esta línea de tiempo?

hassabis: En absoluto. Encaja perfectamente con la trayectoria que hemos marcado durante los últimos dos años.De hecho, desde el lanzamiento de la serie Gemini, nuestro progreso ha sido el más rápido de la industria.Gemini 3 es impresionante, pero aún se espera.

Antes de que podamos lograr una verdadera inteligencia artificial general, todavía necesitamos lograr uno o dos avances clave en consistencia, profundidad de razonamiento, mecanismo de memoria y modelado del mundo físico (como los proyectos SIMA y Genie que estamos impulsando).Lo que estamos haciendo ahora es el «pensamiento del Sistema 1» (rápido, intuitivo), pero para lograr AGI, debemos desbloquear el «pensamiento del Sistema 2» (lento, reflexivo, analítico).

Además, los modelos deben tener mecanismos de memoria selectiva a largo plazo que puedan recordar y aplicar interacciones específicas de hace semanas o meses, en lugar de limitarse a una ventana contextual limitada.Por tanto, la sentencia de 5 a 10 años se mantiene sin cambios.

Newton: Con respecto a la relación entre la personalidad del modelo y los usuarios, la industria está discutiendo acaloradamente sobre los «compañeros de IA».¿Qué tipo de relación quieres que tengan los usuarios con Gemini 3?

madera: Éste es un tema muy delicado pero importante.Lo posicionamos como una «súper herramienta» más que como un compañero emocional.Su valor principal es ayudar a los usuarios a completar las tareas diarias de manera eficiente y mejorar la productividad.Internamente prestamos más atención a un nuevo indicador: ¿Cuántas tareas hemos completado para usted hoy?Esto se acerca más al valor fundamental de la búsqueda original de Google: la eficiencia. Creemos que impulsar los modelos hacia la posición de compañeros emocionales es a la vez un riesgo para la seguridad y un alejamiento de la misión principal de Google como proveedor de información y herramientas.

Rodas：Renunciaste a la oportunidad de crecimiento viral de «Erotic Companion». ¿Es este un gran error estratégico?

madera: Sin comentarios.Nuestro equipo de seguridad cuenta con estrictas normas y lineamientos para esto.

Rodas: Los competidores han estado notablemente nerviosos durante las últimas semanas.¿Crees que Google lidera actualmente la carrera de la IA?

hassabis: El entorno actual es el más competitivo de la historia. Lo único que realmente importa es el ritmo de progreso y estamos muy contentos con eso.Nunca perdimos nuestro liderazgo en investigación, ahora son sólo los lanzamientos de productos los que finalmente nos han alcanzado.Los competidores son excelentes en investigación, pero no pueden replicar nuestras ventajas en distribución de escala e integración vertical.

Estamos inyectando Gemini en miles de millones de productos de usuario, como Maps, YouTube, Android, búsqueda y Workspace. Esta red de distribución y bucle de retroalimentación de datos terminales es un foso insuperable.Además, nuestra ventaja de pila completa en chips de TPU personalizados hace que nuestro costo y eficiencia de capacitación sean mucho más altos que los de los competidores que dependen de recursos de GPU externos.

Newton: ¿Qué opinas sobre el debate entre la ley de escala y los rendimientos decrecientes?Algunas personas creen que cuanto más grande es el modelo, menor es el beneficio marginal de la mejora del rendimiento.

hassabis: Este es un debate en curso. Estamos muy satisfechos con la mejora del Gemini 3 respecto al 2.5, que está totalmente en línea con las expectativas.Los rendimientos no son tan exponenciales como lo eran en los primeros días, pero las mejoras incrementales de utilidad y confiabilidad que aporta siguen siendo mucho más altas que nuestros costos marginales y aún valen nuestra inversión total.Hasta que lleguen uno o dos avances en investigación necesarios para alcanzar el AGI, seguir impulsando el rendimiento a través del modelo básico de mayor escala sigue siendo la estrategia más eficaz en la actualidad.Creemos que la ley de escala sigue siendo válida.

Rodas: ¿Estamos en una burbuja de IA?

hassabis: Esta es una pregunta demasiado binaria.De hecho, hay una burbuja en algunas áreas (como las rondas de semillas de miles de millones de dólares sin productos reales, sólo empresas conceptuales) donde las valoraciones son desproporcionadas con respecto a los ingresos reales.Pero Google tiene tanto monetización a corto plazo (búsqueda, Workspace, TPU en la nube) como nuevas pistas a largo plazo de un billón de niveles (robótica, juegos, descubrimiento de fármacos, ciencia de materiales, etc.).

Por ejemplo, modelos especializados como nuestro AlphaFold están creando valor real en el descubrimiento de fármacos, un mercado de billones de dólares que no tiene nada que ver con las valoraciones de la IA de los consumidores.Existan o no burbujas de corto plazo, ganaremos: aprovecharemos las oportunidades cuando se produzcan auges y seremos más resilientes con ventajas completas y un profundo flujo de caja durante las contracciones.

Newton: Si fuera una fiesta de Acción de Gracias y alguien quisiera cambiar el tema de la política, ¿qué característica sugeriría que usaran Gemini 3 para lucirse y sorprender a la multitud?

madera: No sé si puede salvar el Día de Acción de Gracias, pero puede provocar risas.Saca tu teléfono y tómate una selfie, luego deja que Gemini 3 edite las fotos como loco.

Nuestro modelo de imagen en Géminis sigue siendo el más sólido a nivel mundial. Puede transformar instantáneamente una foto familiar en cualquier escena, estilo o escenario cómico.Definitivamente hará reír a todo el público.Más adelante, cuando les muestre cómo puede ayudarle a escribir una carta de renuncia bien escrita o generar una calculadora de recetas navideñas personalizada, naturalmente explorarán otras funciones nuevas.