Gemini3 のリリース後にチームが発言: 3 つの主要なイノベーションポイントと規模の法則は依然として有効

著者: Wiji、Tencent Technology 特別編集者

北京時間11月19日、GoogleがGemini 3シリーズのモデルを発表した後、ニューヨーク・タイムズが所有するテクノロジー・ポッドキャスト「ハード・フォーク」は特別番組を公開し、司会者のケビン・ルーズとケーシー・ニュートンがGoogle DeepMind CEOのデミス・ハサビスとGoogle Geminiチームリーダーのジョシュ・ウッドワードに独占インタビューを行った。

このインタビューでは、Google の最新フラッグシップ AI モデル Gemini 3 (実際には Gemini 3.0 シリーズの Pro バージョン) に焦点を当てます。これは、Bard の失敗と Gemini 1.x および 2.x の追い上げ段階の後、テクノロジーと製品のリーダーシップを取り戻すために業界で広く検討されている Google の最初のマイルストーンリリースです。

両リーダーは、マルチステップ推論、コード生成 (特にフロントエンドと「アトモスフィアコーディング」)、およびインタラクティブインターフェイスの動的生成における Gemini 3 の画期的な進歩について詳しく説明しました。彼らは、Google が検索、Gmail、Workspace などの数十億のユーザー製品に最強のモデルを迅速に導入し、競争上の障壁を再構築したことを強調しました。

インタビューの要点:

Gemini 3 は予想される開発軌道に完全に沿っており、一般人工知能 (AGI) の実現にはまだ 5 ～ 10 年と 1 ～ 2 回の大きな研究の進歩が必要です;

<リ>

Google は、効率、コスト、流通におけるフルスタックの利点により、あらゆる市場環境で勝利を収めることができます。

<リ>

AI バブルは部分的に存在するが、Google には短期的な収益化と長期的な兆レベルの新軌道という二重の保証がある。

以下はインタビューの要約版です

ロードス島: キャシー、今日は特別なエピソードを一時的に追加します。テーマはジェミニ 3 のリリースです。

ニュートン：はい、ケビン。シリコンバレーのAI界隈では待ち望まれていたモデルで、いよいよ実物の完成品をその手で体験することができます。

ロードス島: 通常の金曜日のリリースリズムを破り、この号を特別に収録した主な理由は 2 つあります。まず、Google の 2 人のコア AI リーダー (DeepMind CEO の Hassabis 氏と Gemini チームの副社長 Woodward 氏) との独占インタビューの機会を得ました。

第二に、Gemini 3 のリリースは業界で強い注目を集めています。複数の研究所の内部情報筋が、このモデルはいくつかの重要な分野で画期的な進歩を遂げており、競合他社に大きな脅威となる可能性があると述べていると聞きました。過去 2 年間、Google は追撃者とみなされてきましたが、今問題になっているのは、Google が首位に戻ったのかということです。

ニュートン：正式にインタビューに入る前に、既知の情報を簡単に紹介します。 Googleはリリース前に非公開の説明会を開催した。Gemini 3 の最も目を引く新機能には、大幅に改善されたコーディング機能と「アンビエンスコーディング」機能が含まれます。新しい対話型インターフェース生成機能。

テキストを出力するだけでなく、ユーザー向けにカスタマイズされた対話型インターフェイスを直接生成します。たとえば、ユーザーがゴッホの生涯について質問すると、モデルは写真、タイムライン、インタラクティブな要素を含む完全な学習ページを即座に生成します。別の例は、100 万ドル以上の価値がある不動産の住宅ローン計算ツールを生成することです。これらの機能は、「質問に答える」から「エクスペリエンスを構築する」への飛躍を示しています。

ロードス島: Gemini 3 は、すべての公開ベンチマークで Gemini 2.5 Pro を大幅に上回っています。たとえば、「人類最後の試験」と呼ばれる学際的な博士レベルの問題セットでは、前者は 21.6% しか得点できなかったのに対し、後者は 37.5% まで直接改善しました。Google の全体的なスタンスは、ChatGPT、Claude、または他の古いバージョンの Gemini で実行できるタスクはすべて、Gemini 3 でより適切に実行できるというものです。

ニュートン: 彼らはまた、Gemini Agent の初期のデモンストレーションも示しました。このモデルは、ユーザーのメールボックスに深くアクセスし、すべての電子メールの内容を理解し、自動的に分類し、返信を作成し、ユーザーが受信ボックスを完全に空にすることもできます。

さらに、Gemini 3 は今週から Gemini アプリと Google 検索 AI モードで利用できるようになります。米国の大学生は、プレミアムバージョンに 1 年間無料でアクセスできます。Google が繰り返し強調しているキーワードは「何でも学ぶ」であり、実際に Gemini を究極のパーソナライズされた教育ツールとして位置づけています。

ロードス島: デミス、ジョシュ、ハードフォークへようこそ。2年前、サンダー・ピチャイは吟遊詩人を、より強力なライバルとサーキットでレースする「改造されたホンダ・シビック」に例えた。では、ジェミニ3とはどんな車なのでしょうか？

ハサビス：ホンダ・シビックよりももっと速ければいいのに。私は車で例えることに慣れていませんが、プロのドラッグレーサー (ドラッグレーサー) に近いかもしれません。日常走行やサーキットレース用に設計されたものではなく、特定の目的に特化した純粋なパワーです。これは、当社の最高の研究結果と大規模なコンピューティング能力の完璧な組み合わせを表しています。知性の最前線で繰り広げられるこの競技で、比類のない瞬発力を発揮することが目標だ。

ロードス島：これは面白いですね。これまでのすべての AI モデルと比較して、Gemini 3 は特定のレベルでどのような新しいことができるでしょうか?定量的かつ実践的な例をいくつか挙げてください。

ウッドワード：特に目立った点は3つあります。まず、多段階推論では、より多くの段階を同時に考えることができ、その信頼性をまったく新しいレベルに引き上げました。前世代のモデルでは、複雑な論理導出の第 5 ステップと第 6 ステップに到達すると、「思考回路を失った」か幻覚に陥ることがよくありましたが、Gemini 3 は、複雑な税務計画、国境を越えた旅行の全体的な計画と予約、または数百万行のコードを含む巨大システムの包括的なデバッグなど、10 ～ 15 の一貫した推論タスクを確実に完了できます。

第二に、新しい対話型インターフェースを初めて大規模に生成します。ユーザーが必要としているのは、もはや単純なテキスト回答ではなく、カスタマイズされたソフトウェアコンポーネントです。たとえば、「すべての投資ポートフォリオを追跡できるダッシュボードの設計を手伝ってください」と尋ねると、ダッシュボードの作成方法を説明する大量のテキストの代わりに、インタラクティブで操作可能なダッシュボードインターフェイスがリアルタイムで生成されます。

3 番目に、当社はコーディング機能、特にフロントエンドと「アンビエントコーディング」に多額の投資を行っています。これは、自然言語プロンプトに基づいて完全に機能し、美しくデザインされたユーザーインターフェイスコードを生成できることを意味します。Google Antigravity などの今後の新製品でも、コンテキストに基づいてユーザーインターフェイスのレイアウトと機能を動的に変更できるモデルを使用して、これを完全に実証します。

ニュートン：一般ユーザーにとって「チャット」のユースケースは基本的に解決されたと多くの人が考えています。彼らは、ジェミニ 3 の答えをその前任者のものとは質的に異なるものにする新しい質問を考えることさえできませんでした。この認識についてどう思いますか?

ウッドワード：その考え方は分かります。表面的には、基本的な質問と回答の正答率はすでに非常に高いです。しかし、本当の違いは、情報の信頼性、統合、表示です。ジェミニ 3 の答えはより簡潔で表現力豊かになり、情報はよりわかりやすい方法で提示されます。これはほとんどの人がすぐに気づく変化です。

さらに重要なことは、モデルが Google エコシステム内の他の製品とリンクするなど、他のユーザーのデータソースと深く統合され始め、単純な質問と回答のモデルを真に超えて、ユーザーの「デジタルスチュワード」になることです。メール全体のコンテキストを理解するので、返信の下書きを作成する際に、質問に答えるだけでなく、過去のスタイルや受信者との関係に基づいて口調や内容を調整します。

ハサビス：全く同感です。その信頼性、スタイル、個性を磨き上げ、よりシンプルに、より本質的に表現しました。「雰囲気コーディング」などのシナリオでは、実用性の限界を超えています。これは「インテリジェントなアシスタント」から「インテリジェントな同僚」への変革です。私は個人的に、クリスマス休暇中にゲームプログラミングに戻るためにこれを使用する予定です。機能的なコードを作成できるだけでなく、設計の初期段階でアーキテクチャ上のアドバイスも提供できるようになりました。

ロードス島: デミスさん、今年 5 月に私たちのインタビューを受けた際、AGI にはまだ 5 ～ 10 年かかり、いくつかの大きな進歩が必要になる可能性があると判断していました。ジェミニ 3 はこのタイムラインを変えるのでしょうか?

ハサビス：全然。それは私たちが過去 2 年間に設定した軌道に完全に一致します。実際、Gemini シリーズの発売以来、当社の進歩は業界最速です。Gemini 3 は素晴らしいですが、それでも期待されています。

真の汎用人工知能を実現する前に、一貫性、推論の深さ、記憶メカニズム、物理世界のモデリング (私たちが進めている SIMA プロジェクトや Genie プロジェクトなど) において 1 つまたは 2 つの重要なブレークスルーを達成する必要があります。私たちが現在行っていることは「システム 1 思考」 (高速、直観的) ですが、AGI を達成するには、「システム 2 思考」 (ゆっくり、思慮深く、分析的) を解除する必要があります。

さらに、モデルには、限られたコンテキストウィンドウに限定されるのではなく、数週間または数か月前の特定のインタラクションを思い出して適用できる、長期的な選択的記憶メカニズムが必要です。したがって、5年から10年という判断は変わりません。

ニュートン：モデルパーソナリティとユーザーの関係について、業界では「AIコンパニオン」について熱く議論されています。ユーザーにGemini 3とどのような関係を築いてもらいたいですか？

ウッドワード：これは非常にデリケートですが重要な問題です。私たちはそれを感情的なパートナーではなく「スーパーツール」として位置づけています。その中心的な価値は、ユーザーが日常のタスクを効率的に完了し、生産性を向上できるように支援することです。私たちは社内で、「今日はいくつのタスクを完了しましたか?」という新しい指標にさらに注目しています。これは、本来の Google 検索の核となる価値である効率に近いものです。私たちは、モデルを感情的な伴侶の位置に押し上げることは、セキュリティリスクであると同時に、情報とツールのプロバイダーとしての Google の中核的使命からの逸脱であると考えています。

ロードス島：「エロティック・コンパニオン」のバイラル成長の機会を放棄しましたね。これは大きな戦略上の間違いでしょうか?

ウッドワード：コメントはありません。当社のセキュリティチームには、これに関する厳格な基準とガイドラインがあります。

ロードス島：ここ数週間、競合他社は著しく緊張していました。現在、Google が AI 競争をリードしていると思いますか?

ハサビス：現在の環境は史上最も競争が激しいです。本当に重要なのは進捗率だけであり、私たちはそのことに非常に満足しています。私たちは研究のリーダーシップを失ったことはなく、今では製品の発売だけがようやく追いついてきたところです。競合他社は研究においては優れていますが、規模の分散や垂直統合において当社の優位性を再現することはできません。

私たちは、マップ、YouTube、Android、検索、ワークスペースなどの数十億のユーザー製品に Gemini を導入しています。この配信ネットワークと端末データのフィードバックループは、乗り越えられない堀です。さらに、カスタマイズされた TPU チップのフルスタックの利点により、トレーニングのコストと効率が、外部 GPU リソースに依存する競合他社よりもはるかに高くなります。

ニュートン: 規模の法則と収穫逓減の間の議論についてはどう思いますか?モデルが大きくなるほど、パフォーマンス向上による限界利益が少なくなると考える人もいます。

ハサビス: これは進行中の議論です。私たちは、Gemini 3 が 2.5 と比較して改善されたことに非常に満足しており、期待に完全に一致しています。収益は初期の頃ほど指数関数的ではありませんが、それによってもたらされる実用性と信頼性の漸進的な向上は依然として限界費用よりはるかに高く、依然として全額投資する価値があります。AGI を達成するために必要な 1 ～ 2 つの研究のブレークスルーが達成されるまでは、最大規模の基本モデルを通じてパフォーマンスを向上させ続けることが、現時点でも依然として最も効果的な戦略です。私たちは、規模の法則が依然として当てはまると信じています。

ロードス島：私たちはAIバブルの中にいますか？

ハサビス: これは二分法すぎる質問です。確かに、評価額が実際の収益と不釣り合いな一部の分野（実際の製品を持たず、単なるコンセプト企業を伴う数十億ドルのシードラウンドなど）ではバブルが存在します。しかし、Googleには短期的な収益化（検索、ワークスペース、クラウドTPU）と長期的な兆レベルの新規事業（ロボット工学、ゲーム、創薬、材料科学など）の両方がある。

たとえば、当社の AlphaFold のような特殊なモデルは、消費者 AI の評価とはまったく関係のない、1 兆ドル規模の市場である創薬において真の価値を生み出しています。短期的なバブルが存在するかどうかに関係なく、私たちは勝利します。ブームが起こったときにチャンスをつかみ、収縮期にはフルスタックの利点と豊富なキャッシュフローによって回復力を高めます。

ニュートン: それが感謝祭のパーティーで、誰かが政治の話題を変えたいと思っている場合、群衆を驚かせるためにジェミニ 3 を使用して披露するためにどの機能を使用することを提案しますか?

ウッドワード: それが感謝祭を救うことができるかどうかはわかりませんが、笑いをもたらすことはできます。携帯電話を取り出してセルフィーを撮り、Gemini 3 に写真を狂ったように編集させましょう。

私たちの双子座のイメージモデルは依然として世界的に最も強力です。家族の写真を、コミカルなシーン、スタイル、時代背景に瞬時に変えることができます。観客全員を笑わせること間違いなしです。その後、適切に作成された退職届を作成したり、カスタマイズされた休日レシピ計算ツールを生成したりするのにどのように役立つかを説明すると、他の新機能も自然に検討するようになります。