Google I/O 2026 发布 Gemini 3.5 Flash 与 Omni,Antigravity 成为完整 Agent 平台;Karpathy 加入 Anthropic;Musk 诉 OpenAI 案败诉

核心摘要

  • Google I/O 2026 发布 Gemini 3.5 Flash,定位为最强 Agent/Coding 模型,1M 上下文,4 级思考模式,已 GA 可用
  • Gemini Omni 首发视频生成/编辑能力,结合 Gemini 推理与生成式媒体,在 Flow、Shorts 中上线
  • Antigravity 2.0 扩展为完整 Agent 平台,含 CLI、SDK、桌面端、Managed Agents API,演示 93 并行 Agent 12 小时构建操作系统
  • Andrej Karpathy 宣布加入 Anthropic,回归前沿 LLM 研发
  • METR 发布首份 Frontier Risk Report,覆盖 Anthropic、Google、Meta、OpenAI 内部 Agent 失控风险
  • Musk 诉 OpenAI 案因诉讼时效被驳回,9 人陪审团约 2 小时裁决

模型发布

Gemini 3.5 Flash

Google DeepMind 发布 Gemini 3.5 Flash,定位为面向 Agent 和编程的最强模型。支持 1M token 上下文窗口、65K 最大输出、4 级思考模式(minimal/low/medium/high),且支持跨轮次”思维保持”。输入模态覆盖文本、图像、视频、语音。定价 $1.50/$9.00 每百万输入/输出 token。

第三方评测方面,Artificial Analysis 给出一分为二的评价:Intelligence Index 55(+9 vs Gemini 3 Flash),>280 output tok/s,MMMU-Pro 84%,但运行成本比 Gemini 3 Flash 高 5.5 倍。Arena 排名 Text Arena #9、Code Arena: Frontend #9。Google 自报 Terminal-Bench 2.1 得分 76.2%、GDPval-AA Elo 1656。

关键信息: Google, Gemini 3.5 Flash, Agent, Coding, 1M上下文, 思考模式

Cerebras 运行 Kimi K2.6

Cerebras 宣布在 enterprise trials 中以约 1,000 tok/s 运行万亿参数模型 Kimi K2.6,Artificial Analysis 称其为”史上最快的前沿模型性能”。Cerebras 强调速度本质上是内存带宽问题,通过将模型层跨晶圆切分避免外部内存读取。

关键信息: Cerebras, Kimi K2.6, 推理速度, 内存带宽

Hugging Face Carbon DNA 模型

Hugging Face 发布 Carbon 系列基因 DNA 基础模型。Carbon-3B 声称匹配 Evo2-7B 性能,但推理速度快 250–275 倍,足以在单 GPU 上两天内处理整个人类基因组。技术要点:确定性 6-mer tokenization、训练后期切换为分解损失函数(FNS)。

关键信息: Hugging Face, Carbon, DNA模型, 基因组, 生物AI

产品动态

Antigravity 成为完整 Agent 平台

Google 将 Antigravity 从编程助手扩展为完整的 Agent 执行平台:Antigravity 2.0 桌面端、CLI、SDK、Managed Agents in Gemini API(单 API 调用即可获得 Agent + Linux 沙箱,支持 Bash/Python/Node)、Android 支持、AI Studio 一键导出。核心演示:93 个并行子 Agent 在 12 小时内构建了一个操作系统,使用 15K+ 次模型请求、2.6B token,API 花费不到 $1,000。

关键信息: Google, Antigravity, Agent平台, 并行Agent, Managed Agents

Gemini Omni 首发视频能力

Google DeepMind 发布 Gemini Omni 系列,将 Gemini 推理与世界知识结合生成式媒体,首发视频生成/编辑。支持文本、图像、音频、视频输入,可在多轮编辑中保持角色一致性和物理正确。Omni Flash 已在 Gemini 应用、Flow、YouTube Shorts 上线,API 将在数周内提供。

关键信息: Google, Gemini Omni, 视频生成, 多模态, 世界模型

OpenAI 推出 Guaranteed Capacity

OpenAI 推出长期预留算力商业产品,客户可签订 1–3 年承诺以折扣价格获得保证的推理容量。Sam Altman 表示在模型越来越有用的世界中,算力将持续受限。

关键信息: OpenAI, 算力预留, 企业定价

GitHub Copilot 集成 Gemini 3.5 Flash

GitHub 开始在 Copilot 中推出 Gemini 3.5 Flash,强调其工具使用、响应速度和缓存效率适合迭代式编程工作流。Cursor 同步推出 Jira 集成,支持从工作项直接启动云端 Agent。

关键信息: GitHub, Copilot, Gemini 3.5 Flash, Cursor, Jira

研究论文

NanoGPT-Bench:编程 Agent 能做研究吗?

Intology AI 发布基于 NanoGPT Speedrun 的自主 AI 研发基准。结果显示 Codex、Claude Code、Autoresearch 仅能恢复 9.3% 的人类进展,且主要来自超参数调优而非算法创新。评估完全自主、离线运行,限制在 5 个月世界纪录窗口内以减少数据污染。

关键信息: NanoGPT-Bench, AI研发, Agent评估, 基准测试

MemEx:Agent 可编程 Python 草稿板

Databricks 研究提出 MemEx,一种在实时内核中保持类型化对象而非填满上下文窗口的 Agent 记忆方案。前沿模型提升 2–5 个准确率点、成本降低 25–30%;Qwen 模型准确率近乎翻倍,成本降低 40–50%。

关键信息: Databricks, MemEx, Agent记忆, 上下文窗口, 成本优化

RoPE 长上下文局限性研究

新论文指出 RoPE 在长上下文中存在内在限制,可能无法同时区分 token 身份和位置,对列表索引检索和 Agent 框架设计有直接影响。

关键信息: RoPE, 长上下文, 位置编码, 注意力机制

工具框架

Unsloth Studio 自动推测解码

Unsloth Studio 新增自动推测解码和 MTP 支持,声称推理速度提升高达 2 倍且无损精度,面向 GGUF 格式模型。

关键信息: Unsloth, 推测解码, GGUF, 推理加速

Qwen3.7 Preview 上架 Arena

阿里 Qwen 在 Arena 上架 Qwen3.7 Preview(Max/Plus 变体),分别位列 Text #6、Vision #5。社区期待发布具体模型变体,尤其是 Coder 系列和 27B 中等规模模型。

关键信息: Qwen, 阿里, Arena, 开源模型

ByteDance Lance:3B 统一多模态模型

字节跳动发布 Lance,号称 3B 激活参数、支持图像/视频理解、生成和编辑。实际模型文件约 24.7GB,推理需 ≥40GB VRAM,暗示总参数量远超”3B”标签。采用 BAGEL 式复合架构,组合 WAN 2.2 视频模型、像素空间图像模型和 Qwen2.5-VL 3B。

关键信息: ByteDance, Lance, 多模态, 统一模型, 开源

行业事件

Karpathy 加入 Anthropic

当日互动最高的 AI 推文——Andrej Karpathy 宣布加入 Anthropic,回归前沿 LLM 研发。业界解读为 Anthropic 的重大人才胜利,传闻其将从事 RSI/自动研究和预训练相关工作。

关键信息: Karpathy, Anthropic, 人才流动, LLM研发

Musk 诉 OpenAI 案被驳回

联邦陪审团裁定 Musk 诉 OpenAI/Sam Altman 案因 3 年诉讼时效已过而驳回。9 人陪审团约 2 小时做出裁决,法官采纳为最终判决。Musk 称其为”日历技术细节”并计划上诉至第九巡回法院。

关键信息: Musk, OpenAI, 诉讼, 法律

METR 首份 Frontier Risk Report

METR 基于对 Anthropic、Google、Meta、OpenAI 内部模型和信息的深度访问,发布首份前沿风险报告,聚焦实验室是否可能失去对内部部署 Agent 的控制。报告包含大量附录和交互记录。

关键信息: METR, AI安全, Agent失控风险, 前沿模型

Dario Amodei:AI 或将导致高 GDP 增长与高失业并存

Anthropic CEO Dario Amodei 提出 AI 可能创造前所未有的宏观经济组合:极高 GDP 增长同时 10%+ 失业率。社区讨论的焦点在于如果劳动力收入大幅下降,谁来维持消费需求。

关键信息: Amodei, AI经济影响, 失业率, GDP增长

关键词

#GoogleIO #Gemini3.5Flash #Antigravity #GeminiOmni #Karpathy #Anthropic #OpenAI #Agent #METR #Carbon


数据来源: smol.ai | 生成时间: 2026-05-20 12:00