Das Team äußerte sich nach der Veröffentlichung von Gemini3: Drei wichtige Innovationspunkte und das Gesetz der Skalierung gelten weiterhin

Autor: Wuji, Sonderredakteur von Tencent Technology

Am 19. November, Pekinger Zeit, nachdem Google die Modellreihe Gemini 3 veröffentlicht hatte, veröffentlichte der Technologie-Podcast „Hard Fork“ der New York Times eine Sondersendung, in der die Moderatoren Kevin Roose und Casey Newton ein exklusives Interview mit Demis Hassabis, CEO von Google DeepMind, und Josh Woodward, Teamleiter von Google Gemini, führten.

Dieses Interview konzentriert sich auf Googles neuestes Flaggschiff-KI-Modell Gemini 3 (eigentlich die Pro-Version der Gemini 3.0-Serie).Dies ist Googles erste bahnbrechende Veröffentlichung, die in der Branche weithin als Ziel angesehen wird, seine Technologie- und Produktführerschaft nach dem Scheitern von Bard und der Aufholphase von Gemini 1.x und 2.x zurückzugewinnen.

Die beiden Leiter erläuterten die Durchbrüche von Gemini 3 in den Bereichen mehrstufiges Denken, Codegenerierung (insbesondere Front-End- und „Atmosphere Coding“) und dynamische Generierung interaktiver Schnittstellen.Sie betonten, dass Google die stärksten Modelle schnell auf Milliarden von Nutzerprodukten wie Suche, Gmail und Workspace verdrängt und damit Wettbewerbsbarrieren neu gestaltet hat.

Kernpunkte des Interviews:

  • Gemini 3 entspricht voll und ganz dem erwarteten Entwicklungspfad.Die allgemeine künstliche Intelligenz (AGI) benötigt noch 5 bis 10 Jahre und 1 bis 2 große Forschungsdurchbrüche;

  • Googles Full-Stack-Vorteile in Bezug auf Effizienz, Kosten und Vertrieb ermöglichen es dem Unternehmen, in jedem Marktumfeld zu gewinnen;

  • Die KI-Blase existiert teilweise, aber Google hat die doppelte Garantie einer kurzfristigen Monetarisierung und einer langfristigen neuen Spur in Billionenhöhe.

Im Folgenden finden Sie eine gekürzte Fassung des Interviews

Rhodos: Kathy, wir fügen heute vorübergehend eine Sonderfolge hinzu, das Thema ist die Veröffentlichung von Gemini 3.

Newton: Ja, Kevin. Dieses Modell wurde in KI-Kreisen im Silicon Valley schon lange erwartet, und endlich können wir das echte Endprodukt mit unseren Händen erleben.

Rhodos: Es gibt zwei Hauptgründe, warum wir den regulären Veröffentlichungsrhythmus am Freitag durchbrochen und diese Ausgabe speziell aufgenommen haben. Zunächst bekamen wir die Möglichkeit, exklusive Interviews mit zwei wichtigen KI-Führungskräften bei Google zu führen (DeepMind-CEO Hassabis und Gemini-Team-Vizepräsident Woodward).

Zweitens hat die Veröffentlichung von Gemini 3 große Aufmerksamkeit in der Branche erregt.Wir haben interne Quellen aus mehreren Labors gehört, die sagen, dass dieses Modell in einigen Schlüsselbereichen Durchbrüche erzielt hat und eine erhebliche Bedrohung für die Konkurrenz darstellen könnte.Google galt in den letzten zwei Jahren als Verfolger, und nun stellt sich die Frage: Sind sie wieder an die Spitze zurückgekehrt?

Newton: Bevor wir offiziell in das Interview eintreten, werden wir die bekannten Informationen kurz vorstellen. Google hielt vor der Veröffentlichung ein Briefing unter Ausschluss der Öffentlichkeit ab.Zu den auffälligsten neuen Funktionen von Gemini 3 gehören: stark verbesserte Codierungs- und „Ambience Coding“-Funktionen; und eine neue Funktion zur Generierung interaktiver Schnittstellen.

Es gibt nicht mehr nur Text aus, sondern generiert direkt maßgeschneiderte interaktive Oberflächen für Benutzer.Wenn ein Benutzer beispielsweise nach Van Goghs Leben fragt, generiert das Modell sofort eine vollständige Lernseite mit Bildern, Zeitleisten und interaktiven Elementen.Ein weiteres Beispiel ist die Erstellung eines Hypothekenrechners für Immobilien im Wert von mehr als einer Million Dollar. Diese Funktionen markieren den Übergang von der „Beantwortung von Fragen“ zum „Aufbau von Erfahrungen“.

Rhodos: Gemini 3 übertrifft Gemini 2.5 Pro in allen öffentlichen Benchmarks deutlich.Bei einem interdisziplinären Aufgabensatz auf Doktorandenebene namens „Humanity’s Last Exam“ erreichte Ersterer beispielsweise nur 21,6 %, während Letzterer sich direkt auf 37,5 % verbesserte.Der allgemeine Standpunkt von Google ist, dass jede Aufgabe, die Sie mit ChatGPT, Claude oder anderen älteren Versionen von Gemini erledigen können, mit Gemini 3 besser erledigt werden kann.

Newton: Sie zeigten auch eine frühe Demonstration von Gemini Agent: Das Modell kann umfassend auf das Postfach des Benutzers zugreifen, den Inhalt aller E-Mails verstehen, automatisch klassifizieren, Antworten formulieren und Benutzern sogar dabei helfen, ihre Posteingänge vollständig zu leeren.

Darüber hinaus wird Gemini 3 ab dieser Woche in der Gemini-App und im Google Search AI-Modus verfügbar sein; Amerikanische College-Studenten erhalten ein Jahr lang kostenlosen Zugang zur Premium-Version.Das Schlüsselwort, das Google immer wieder hervorhebt, ist „Learn Anything“, was Gemini tatsächlich als das ultimative personalisierte Bildungstool positioniert.

Rhodos: Demis, Josh, willkommen bei Hard Fork. Vor zwei Jahren verglich Sundar Pichai den Bard mit „einem modifizierten Honda Civic“, der auf einer Rennstrecke gegen stärkere Konkurrenten antritt. Was für ein Auto ist Gemini 3?

Hassabis: Ich wünschte, er wäre viel schneller als der Honda Civic. Ich bin es nicht gewohnt, die Auto-Analogie zu verwenden, vielleicht eher wie ein professioneller Drag-Racer (Drag Racer).Es ist nicht für das tägliche Fahren oder Rundstreckenrennen konzipiert, es ist pure Leistung, die auf einen bestimmten Zweck ausgerichtet ist.Es stellt die perfekte Kombination aus unseren Spitzenforschungsergebnissen und großer Rechenleistung dar. Ziel ist es, in diesem Wettbewerb an der Spitze der Intelligenz eine beispiellose sofortige Sprengkraft zu zeigen.

Rhodos: Das ist interessant. Welche neuen Dinge kann Gemini 3 im Vergleich zu allen vorherigen KI-Modellen auf einer bestimmten Ebene leisten?Bitte geben Sie uns einige quantitative, praktische Beispiele.

Woodward: Es gibt drei Punkte, die am meisten hervorstechen. Erstens kann es beim mehrstufigen Denken über mehrere Schritte gleichzeitig nachdenken, und wir haben seine Zuverlässigkeit auf ein ganz neues Niveau gehoben.Modelle früherer Generationen haben oft „den Gedankengang verloren“ oder halluzinieren, wenn sie den 5. und 6. Schritt einer komplexen logischen Ableitung erreichen, während Gemini 3 zuverlässig 10 bis 15 Schritte kohärenter Argumentationsaufgaben abschließen kann, wie z.B. komplexe Steuerplanung, Gesamtplanung und Buchung grenzüberschreitender Reisen oder umfassendes Debuggen eines riesigen Systems mit Millionen von Codezeilen.

Zweitens wird dadurch erstmals in großem Maßstab eine neue interaktive Schnittstelle generiert.Was Anwender brauchen, sind nicht mehr einfache Textantworten, sondern maßgeschneiderte Softwarekomponenten.Wenn Sie beispielsweise fragen: „Helfen Sie mir, ein Dashboard zu entwerfen, das alle meine Anlageportfolios verfolgen kann“, wird in Echtzeit eine interaktive und betriebsbereite Dashboard-Schnittstelle generiert, anstatt einer Menge Text, der beschreibt, wie ein Dashboard erstellt wird.

Drittens investieren wir stark in Codierungsfunktionen, insbesondere in das Frontend und die „Ambient Coding“, was bedeutet, dass voll funktionsfähige und schön gestaltete Benutzeroberflächencodes basierend auf Eingabeaufforderungen in natürlicher Sprache generiert werden können.Kommende neue Produkte wie Google Antigravity werden dies ebenfalls vollständig demonstrieren, da Modelle in der Lage sind, das Layout und die Funktionalität der Benutzeroberfläche je nach Kontext dynamisch zu ändern.

Newton: Viele Leute glauben, dass der Anwendungsfall „Chat“ für normale Benutzer grundsätzlich gelöst ist.Ihnen fielen nicht einmal neue Fragen ein, die die Antworten von Gemini 3 qualitativ von denen des Vorgängers unterscheiden würden. Was halten Sie von dieser Wahrnehmung?

Woodward: Ich verstehe diesen Standpunkt.Oberflächlich betrachtet ist die Genauigkeit der grundlegenden Fragen und Antworten bereits sehr hoch.Der eigentliche Unterschied liegt jedoch in der Zuverlässigkeit, Integration und Präsentation der Informationen. Die Antworten von Gemini 3 werden prägnanter und aussagekräftiger sein und die Informationen werden verständlicher präsentiert.Dies ist eine Veränderung, die die meisten Menschen sofort bemerken werden.

Noch wichtiger ist, dass das Modell beginnt, tief in die Datenquellen anderer Benutzer integriert zu werden, beispielsweise durch die Verknüpfung mit anderen Produkten im Google-Ökosystem, wodurch das einfache Frage-und-Antwort-Modell wirklich überwunden wird und zum „digitalen Verwalter“ des Benutzers wird.Es versteht den Kontext Ihrer gesamten E-Mail, sodass es beim Verfassen einer Antwort nicht nur die Frage beantwortet, sondern auch Ton und Inhalt auf der Grundlage Ihres bisherigen Stils und Ihrer Beziehung zum Empfänger anpasst.

Hassabis: Ich stimme voll und ganz zu.Seine Zuverlässigkeit, sein Stil und seine Persönlichkeit wurden verfeinert, um es einfacher und auf den Punkt zu bringen. In Szenarien wie der „Atmosphärenkodierung“ wurde die Schwelle der Praktikabilität überschritten.Dies ist eine Transformation vom „intelligenten Assistenten“ zum „intelligenten Kollegen“.Ich persönlich habe vor, es zu nutzen, um über die Weihnachtsferien wieder in die Spieleprogrammierung einzusteigen, und es kann jetzt nicht nur funktionalen Code schreiben, sondern auch Architekturberatung in den frühen Phasen des Entwurfs bieten.

Rhodos: Demis, als Sie im Mai dieses Jahres von uns interviewt wurden, gingen Sie davon aus, dass AGI noch 5 bis 10 Jahre dauern wird und möglicherweise mehrere große Durchbrüche erfordert.Ändert Gemini 3 diese Zeitachse?

Hassabis: Überhaupt nicht. Es passt perfekt zu dem Kurs, den wir in den letzten zwei Jahren eingeschlagen haben.Tatsächlich waren unsere Fortschritte seit der Einführung der Gemini-Serie die schnellsten in der Branche.Gemini 3 ist atemberaubend, aber dennoch erwartet.

Bevor wir echte allgemeine künstliche Intelligenz erreichen können, müssen wir noch ein oder zwei wichtige Durchbrüche in den Bereichen Konsistenz, Argumentationstiefe, Gedächtnismechanismus und Modellierung der physischen Welt erzielen (wie die Projekte SIMA und Genie, die wir vorantreiben).Was wir jetzt tun, ist „System 1-Denken“ (schnell, intuitiv), aber um AGI zu erreichen, müssen wir „System 2-Denken“ (langsam, nachdenklich, analytisch) freischalten.

Darüber hinaus müssen Modelle über langfristige, selektive Gedächtnismechanismen verfügen, die bestimmte Interaktionen von vor Wochen oder Monaten abrufen und anwenden können, anstatt auf ein begrenztes Kontextfenster beschränkt zu sein.Daher bleibt das Urteil von 5 bis 10 Jahren unverändert.

Newton: Bezüglich der Beziehung zwischen Model-Persönlichkeit und Nutzern wird in der Branche heftig über „KI-Begleiter“ diskutiert.Welche Art von Beziehung sollen Benutzer zu Gemini 3 haben?

Woodward: Dies ist ein sehr heikles, aber wichtiges Thema.Wir positionieren es als „Super-Tool“ und nicht als emotionalen Begleiter.Sein Hauptwert besteht darin, Benutzern dabei zu helfen, tägliche Aufgaben effizient zu erledigen und die Produktivität zu verbessern.Wir achten intern stärker auf eine neue Kennzahl: Wie viele Aufgaben haben wir heute für Sie erledigt?Dies kommt dem Kernwert der ursprünglichen Google-Suche näher – der Effizienz. Wir glauben, dass es sowohl ein Sicherheitsrisiko als auch eine Abkehr von Googles Kernaufgabe als Anbieter von Informationen und Tools darstellt, Models in die Position emotionaler Begleiter zu drängen.

Rhodos:Sie haben die virale Wachstumschance von „Erotic Companion“ aufgegeben. Ist das ein schwerwiegender strategischer Fehler?

Woodward: Kein Kommentar.Unser Sicherheitsteam hat hierfür strenge Normen und Richtlinien.

Rhodos: Die Konkurrenz war in den letzten Wochen spürbar nervös.Glauben Sie, dass Google derzeit das KI-Rennen anführt?

Hassabis: Das aktuelle Umfeld ist das wettbewerbsstärkste in der Geschichte.Das Einzige, was wirklich zählt, ist die Geschwindigkeit des Fortschritts, und damit sind wir sehr zufrieden.Wir haben unsere Forschungsführerschaft nie verloren, jetzt sind es nur noch die Produkteinführungen, die endlich aufgeholt haben.Die Wettbewerber sind in der Forschung hervorragend, können unsere Vorteile bei der Skalenverteilung und vertikalen Integration jedoch nicht reproduzieren.

Wir integrieren Gemini in Milliarden von Benutzerprodukten wie Maps, YouTube, Android, Suche und Workspace.Diese Rückkopplungsschleife für Vertriebsnetzwerke und Terminaldaten ist ein unüberwindbarer Graben.Darüber hinaus sind unsere Schulungskosten und -effizienz dank unseres Full-Stack-Vorteils bei maßgeschneiderten TPU-Chips weitaus höher als bei Mitbewerbern, die auf externe GPU-Ressourcen angewiesen sind.

Newton: Was halten Sie von der Debatte zwischen dem Skalengesetz und sinkenden Renditen?Einige Leute glauben, dass der Grenznutzen der Leistungsverbesserung umso geringer ist, je größer das Modell ist.

Hassabis: Dies ist eine fortlaufende Debatte.Wir sind sehr zufrieden mit der Verbesserung von Gemini 3 im Vergleich zu 2.5, die voll und ganz den Erwartungen entspricht.Die Renditen sind nicht mehr so ​​exponentiell wie in der Anfangszeit, aber die damit verbundenen zusätzlichen Nutzen- und Zuverlässigkeitsverbesserungen liegen immer noch weit über unseren Grenzkosten und sind immer noch unsere volle Investition wert.Bis die ein bis zwei Forschungsdurchbrüche eintreffen, die zur Erreichung der AGI erforderlich sind, ist die weitere Leistungssteigerung durch das Basismodell im größten Maßstab derzeit immer noch die effektivste Strategie.Wir glauben, dass das Gesetz der Größenordnung immer noch gilt.

Rhodos: Befinden wir uns in einer KI-Blase?

Hassabis: Das ist eine zu binäre Frage.In einigen Bereichen gibt es tatsächlich eine Blase (z. B. milliardenschwere Seed-Runden ohne echte Produkte, nur Konzeptunternehmen), in denen die Bewertungen in keinem Verhältnis zum tatsächlichen Umsatz stehen.Aber Google verfügt sowohl über kurzfristige Monetarisierung (Suche, Workspace, Cloud-TPU) als auch über langfristige neue Wege in Billionenhöhe (Robotik, Spiele, Arzneimittelentwicklung, Materialwissenschaft usw.).

Beispielsweise schaffen spezialisierte Modelle wie unser AlphaFold echten Mehrwert in der Arzneimittelforschung, einem Billionen-Dollar-Markt, der nichts mit der KI-Bewertung der Verbraucher zu tun hat.Unabhängig davon, ob es kurzfristige Blasen gibt oder nicht, werden wir gewinnen: Nutzen Sie Chancen, wenn Booms auftreten, und seien Sie widerstandsfähiger mit Full-Stack-Vorteilen und einem hohen Cashflow bei Kontraktionen.

Newton: Wenn es eine Thanksgiving-Party wäre und jemand das Thema Politik wechseln möchte, welche Funktion würden Sie ihm vorschlagen, Gemini 3 zu nutzen, um anzugeben und die Menge zu begeistern?

Woodward: Ich weiß nicht, ob es Thanksgiving retten kann, aber es kann Lachen bringen. Nehmen Sie Ihr Telefon heraus, machen Sie ein Selfie und lassen Sie Gemini 3 die Fotos wie verrückt bearbeiten.

Unser Image-Modell in Zwillingen ist nach wie vor das stärkste weltweit.Sie können ein Familienfoto im Handumdrehen in jede komische Szene, jeden Stil oder jedes historische Setting verwandeln. Es wird auf jeden Fall das ganze Publikum zum Lachen bringen.Wenn Sie später zeigen, wie es Ihnen dabei helfen kann, ein gut geschriebenes Kündigungsschreiben zu schreiben oder einen maßgeschneiderten Feiertagsrezeptrechner zu erstellen, werden sie natürlich auch andere neue Funktionen erkunden.

  • Related Posts

    Vitalik spricht über die Zukunft der Blockchain: Die Popularisierung von ZK und FHE wird eine echte Revolution auslösen

    Die Shanghai Blockchain International Week 2025 und der 11. Blockchain Global Summit fanden in Shanghai statt.Vitalik Buterin, Mitbegründer von Ethereum, hielt per Videoschaltung eine Rede, in der er seine Ansichten,…

    Was wäre, wenn Quantencomputer Bitcoin geknackt hätten?

    Autor: Yohan Yun, Quelle: Cointelegraph, Compiler: Shaw Bitcoin Vision Wenn heute ein Quantencomputer online käme, der in der Lage wäre, moderne Verschlüsselungen zu knacken, würde Bitcoin wahrscheinlich angegriffen werden –…

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

    You Missed

    Die neue Erntemethode des Währungskreises in Polymarket

    • Von jakiro
    • November 19, 2025
    • 1 views
    Die neue Erntemethode des Währungskreises in Polymarket

    Der Privatanwalt von CZ erläutert die Kontroverse um Trumps Begnadigung: Reaktion auf Vorwürfe wegen politischer Deals

    • Von jakiro
    • November 19, 2025
    • 1 views
    Der Privatanwalt von CZ erläutert die Kontroverse um Trumps Begnadigung: Reaktion auf Vorwürfe wegen politischer Deals

    Das Team äußerte sich nach der Veröffentlichung von Gemini3: Drei wichtige Innovationspunkte und das Gesetz der Skalierung gelten weiterhin

    • Von jakiro
    • November 19, 2025
    • 2 views
    Das Team äußerte sich nach der Veröffentlichung von Gemini3: Drei wichtige Innovationspunkte und das Gesetz der Skalierung gelten weiterhin

    Neues Währungsabsicherungsspiel bei mangelnder Liquidität: Eine neue Möglichkeit für Privatanleger, neue Gewinne zu erzielen?

    • Von jakiro
    • November 19, 2025
    • 1 views
    Neues Währungsabsicherungsspiel bei mangelnder Liquidität: Eine neue Möglichkeit für Privatanleger, neue Gewinne zu erzielen?

    Warum BTC all seine Gewinne zurückgab, Altcoins sind unter Wasser: Die Wahrheit kommt ans Licht

    • Von jakiro
    • November 18, 2025
    • 1 views
    Warum BTC all seine Gewinne zurückgab, Altcoins sind unter Wasser: Die Wahrheit kommt ans Licht

    BTC könnte zunächst auf 85.000 fallen, und dann beginnt der Gelddruck-Rausch auf 200.000 US-Dollar anzusteigen.

    • Von jakiro
    • November 18, 2025
    • 1 views
    BTC könnte zunächst auf 85.000 fallen, und dann beginnt der Gelddruck-Rausch auf 200.000 US-Dollar anzusteigen.
    Home
    News
    School
    Search