Google I/O 2026 余波持续:Gemini 3.5 Flash Agent/Coding 最强模型正式 GA,Antigravity Managed Agents 开放 API;OpenAI 宣布数学突破;Hassabis 预测 2029/30 AGI;MCP 生态日活持续升温

具身智能

从 #EmbodiedAI、#RobotLearning、#Humanoid、#Sim2Real 标签中精选的具身智能领域最新动态

远程操作 + 具身 AI 数据管线:Teleoperation 成为人-机技能迁移核心范式

社区关注 Teleoperation(远程操作)作为具身 AI 数据采集的关键路径:人类远程控制机器人手臂收集真实运动数据,AI 从中学习自主复现任务。Alicia-D Leader Arm(730g 轻量级机械臂)作为遥操作输入端引发讨论。同时有开发者分享了家庭任务视频采集与上传端到端管线(device → storage),主要工程挑战在边缘场景处理。

关键信息: Teleoperation, Alicia-D, 数据管线, 具身AI

AGIMUS/Inria 提出规划+学习融合框架:机器人行为的学习与规划双向促进

Inria 联合 AGIMUS 项目提出一种将规划(Planning)与学习(Learning)结合的框架,使机器人能在执行任务时同时提升规划精确度和学习适应性,瞄准更灵活、自适应的机器人行为生成。

关键信息: AGIMUS, Inria, RobotLearning, 规划+学习

人形机器人社区讨论活跃:Unitree 机器人引发技术到社会经济学讨论

Unitree 人形机器人在 X 平台引发热议,讨论从技术延伸到社会经济学层面——包括人形机器人在劳动力替代、社会结构等方面的潜在影响。Embodied AI 视觉挑战(FOV & HDR,光照突变导致深度数据丢失)也受到关注。

关键信息: Unitree, Humanoid, 人形机器人, 视觉挑战

Sim2Real 迁移实战:关节角历史+陀螺仪观测实现平滑 Sim2Real 迁移

日本机器人社区在 Sim2Real 方向有活跃实验:将关节角历史(5 步)和陀螺仪数据加入模仿强化学习观测,显著改善了 Sim2Real 迁移的平滑度。同时针对机械结构低刚性和间隙导致游脚偏移的问题,通过机械补强和足位置奖励函数优化实现了稳定转向。

关键信息: Sim2Real, 模仿强化学习, IsaacLab, 机器人控制

核心摘要

  • **远程操作 + 具身 AI**:Teleoperation 成为具身 AI 核心数据采集范式,轻量化机械臂实现人-机技能迁移
  • **Gemini 3.5 Flash 正式 GA**:Google 最强 Agent/Coding 模型,1M 上下文 + 4 级思考,Arena #9;但价格争议持续——比 3 Flash 贵 5.5x
  • **Antigravity Managed Agents**:单 API 调用获得 Agent + Linux 沙箱,93 并行 Agent 12h 构建操作系统,花费 <$1K
  • **Hassabis 预测 2029/30 AGI**:Demis Hassabis 称”距离 AGI 仅数年”,预测 2029/2030 年实现
  • **AWS MCP Server 正式 GA**:15,000+ AWS API 可通过 Claude Code 直接调用,基于现有 IAM 凭证
  • **MCP 生态持续升温**:自托管沙箱 + MCP 隧道、Agent Safety Checks、10,000+ 公共 MCP 服务器
  • **OpenAI 数学突破**:宣布在平面单位距离问题(Erdős 问题)上取得突破

模型发布

Gemini 3.5 Flash:Google 最强 Agent/Coding 模型正式 GA,Arena #9,速度 4x—12x 领先同类

Google DeepMind 发布 Gemini 3.5 Flash,定位为面向 Agent 与编程的最强模型,已正式 GA。核心规格:1M token 上下文、65K 最大输出、4 级思考模式(minimal/low/medium/high,默认 medium)、跨轮次”思维保持”。输入模态支持文本、图像、视频、语音。定价 $1.50/$9.00 每百万输入/输出 token,缓存输入享 90% 折扣。

第三方评测:Artificial Analysis 评其为速度-智能帕累托前沿领导者(Intelligence Index 55,+9 vs 3 Flash),>280 output tok/s,MMMU-Pro 84%,但运行成本比 Gemini 3 Flash 高 5.5x。Arena 排名 #9(1507 分,+70)。社区主要争议在价格——@simonw 指出价格是 3 Flash 的 3 倍,@enricoros 计算比 15 个月前 2.0 Flash 贵 22.5x。Google 自报 Terminal-Bench 2.1 得分 76.2%、GDPval-AA Elo 1656。

GitHub Copilot、Cursor、VS Code 已同步集成 Gemini 3.5 Flash。

关键信息: Google, Gemini 3.5 Flash, Agent, Coding, 1M上下文, 思考模式, 价格争议

Cerebras 运行 Kimi K2.6:万亿参数模型推理速度达 1,000 tok/s,创历史记录

Cerebras 在 enterprise trials 中以约 1,000 tok/s 运行万亿参数模型 Kimi K2.6,Artificial Analysis 称为”史上最快的前沿模型性能”。核心技术:模型层跨晶圆切分避免外部内存读取,速度本质是内存带宽问题。

关键信息: Cerebras, Kimi K2.6, 推理速度, 内存带宽

Hugging Face Carbon:DNA 基础模型推理速度超 Evo2-7B 达 275 倍,单 GPU 可处理全基因组

Hugging Face 发布 Carbon 系列基因 DNA 基础模型。Carbon-3B 声称匹配 Evo2-7B 性能,推理速度快 250–275 倍,单 GPU 两天内可处理整个人类基因组。技术要点:确定性 6-mer tokenization + 训练后期切换分解损失函数(FNS)。

关键信息: Hugging Face, Carbon, DNA模型, 基因组, 生物AI

产品动态

Antigravity 2.0:从编程助手进化为完整 Agent 平台,Managed Agents API 开放 Google 内部沙箱

Google 将 Antigravity 扩展为完整 Agent 执行平台:CLI、SDK、桌面端 2.0、Managed Agents in Gemini API(单 API 调用获得 Agent + Linux 沙箱,支持 Bash/Python/Node/文件/浏览器)、Android 支持、AI Studio 一键导出。Managed Agents 暴露 Google 内部使用的托管 Linux 沙箱,支持 repo 挂载和 Markdown 定义技能。核心演示:93 并行子 Agent 12 小时构建完整操作系统,15K+ 次请求、2.6B token、花费不到 $1,000。

但 agy CLI 不再开源且不支持 ACP 协议,引发社区反弹(via @pvncher/@jeremyphoward)。

关键信息: Google, Antigravity, Agent平台, 并行Agent, Managed Agents, 开源争议

Gemini Omni Flash:跨模态视频生成/编辑首发,角色一致性领先,已上线 Gemini App/Flow/Shorts

Google DeepMind 发布 Gemini Omni——将 Gemini 推理与世界知识结合生成式媒体,首发视频生成/编辑。支持文本、图像、音频、视频输入,多轮编辑保持角色一致性和物理正确。Omni Flash 已在 Gemini App、Flow、YouTube Shorts 上线,API 数周内提供。Demis Hassabis 称为”世界理解与多模态编辑的重大飞跃”,被解读为世界模型(World Model)路线的重要信号。

关键信息: Google, Gemini Omni, 视频生成, 多模态, 世界模型

Gemini Spark:Google 24/7 个人 Agent,云端 VM 持续运行,集成 Google 全家桶

Google 推出基于专用云虚拟机的 24/7 个人 AI 代理,可在用户关闭电脑后持续后台运行。集成 Docs、Calendar、Slides 等 Google 工具,计划支持 MCP 协议及 macOS 桌面端。用户确认重大操作前需征得同意。

关键信息: Google, Gemini Spark, 个人Agent, 云端VM, MCP

AWS MCP Server 正式 GA:15,000+ AWS API 可在 Claude Code 中通过 IAM 直接调用

AWS MCP Server 正式 GA——15,000+ AWS API 现在可从 Claude Code 内部通过现有 IAM 凭证调用,完整 CloudTrail 日志记录,可审计。标志着 IDE 成为云基础设施的控制平面。

关键信息: AWS, MCP Server, Claude Code, IAM, CloudTrail

研究论文

NanoGPT-Bench:当前编程 Agent 仅能恢复 9.3% 人类 AI 研发进展,算法创新几乎为零

Intology AI 发布基于 NanoGPT Speedrun 的自主 AI 研发基准。Codex、Claude Code、Autoresearch 仅恢复 9.3% 人类进展,主要来自超参数调优而非算法创新。评估全自主、离线运行,限制在 5 个月世界纪录窗口内减少数据污染。

关键信息: NanoGPT-Bench, AI研发, Agent评估, 基准测试

Databricks MemEx:可编程 Python 草稿板替代上下文窗口堆砌,准确率提升 + 成本降 30%

Databricks 提出 MemEx,在实时内核中保持类型化对象而非填满上下文窗口。前沿模型提升 2–5 准确率点、成本降 25–30%;Qwen 模型准确率近乎翻倍、成本降 40–50%。

关键信息: Databricks, MemEx, Agent记忆, 上下文窗口, 成本优化

RoPE 位置编码内在局限:长上下文中无法同时区分 token 身份与位置,影响 Agent 检索

新论文指出 RoPE 在长上下文中的内在限制——无法同时区分 token 身份和位置,对列表索引检索和 Agent 框架设计有直接影响。(@jeremyphoward 转推)

关键信息: RoPE, 长上下文, 位置编码, 注意力机制

Terminal-Bench Science 发布:Stanford HAI 推出科学工作流 Agent 基准

Stanford HAI 宣布 Terminal-Bench Science——将 AI Agent 评测从纯编程扩展至真实科学工作流,为 Agent 在科研场景的能力评估提供标准化基准。

关键信息: Stanford HAI, Terminal-Bench, 科学工作流, Agent评测

工具框架

Qwen3.7 Preview 登 Arena #6/#5:社区期待 Coder 与 27B 中等规模变体

阿里 Qwen 上架 Qwen3.7 Preview(Max/Plus 变体),位列 Text #6、Vision #5。社区期待具体模型变体发布,尤其 Coder 系列和 27B 中等规模模型。Qwen3.6-27B 在本地推理社区的配置优化持续活跃——IQ4_KS 量化 + ik_llama.cpp 在 RTX 3090 24GB 上可达 72.93 tok/s 解码速度。

关键信息: Qwen, 阿里, Arena, 开源模型, 本地推理

ByteDance Lance:3B 激活参数统一多模态模型,BAGEL 复合架构实现图像/视频全能力

字节跳动发布 Lance,号称 3B 激活参数,支持图像/视频理解、生成和编辑。实际模型文件约 24.7GB(≥40GB VRAM),采用 BAGEL 式复合架构组合 WAN 2.2 + 像素空间图像模型 + Qwen2.5-VL 3B。社区对”3B”标签有争议——总参数量远超此数。

关键信息: ByteDance, Lance, 多模态, 统一模型, 开源

Gutenberg CLI:将 API Spec 与流量抓包自动转为 Agent 可用工具,支持 MCP + Skills

Gutenberg CLI 将 API 规范和流量捕捉转化为 Agent 就绪的工具表面(CLI、MCP、Skills、缓存、策略、证明),不是脚手架而是真正的 AI Agent 可用工具层。开源发布。

关键信息: Gutenberg CLI, MCP, API-to-Tool, 开源, Agent

行业事件

Andrej Karpathy 加入 Anthropic:当日互动最高,将从事 RSI 与预训练方向

当日互动最高的 AI 推文。Karpathy:”我觉得 LLM 前沿的下几年将特别有塑造力,很高兴加入团队回归研发。” Axios 等媒体猜测将从事 RSI/自动研究和预训练工作。业界普遍解读为 Anthropic 的重大人才胜利,在 OpenAI 人才流失背景下更显重要。

关键信息: Karpathy, Anthropic, 人才流动, LLM研发, RSI

Demis Hassabis 预测 2029/30 AGI:Google I/O 现场高光时刻

Demis Hassabis 在 Google I/O 现场表示”我们距离 AGI 仅有几年时间”,给出 2029/2030 年的个人预测时间线。同时回顾了 AlphaFold 团队的关键决策时刻,强调 AI 时代的影响将是工业革命的 10 倍且速度快 10 倍。

关键信息: Hassabis, AGI预测, Google I/O, 2029/2030

OpenAI 宣布平面单位距离问题突破:AI 解决著名 Erdős 猜想

OpenAI 宣布在平面单位距离问题(Planar Unit Distance Problem)上取得突破——这是 Paul Erdős 在 1946 年提出的著名开放数学问题。该成果展示了 AI 在纯数学研究中的前沿应用,是继 AlphaProof 后又一次 AI 数学里程碑。

关键信息: OpenAI, Erdős问题, 数学突破, AI for Math

Musk 诉 OpenAI 案因时效被驳回:9 人陪审团 2 小时裁决,Musk 将上诉

联邦陪审团裁定 Musk 诉 OpenAI/Sam Altman 案因 3 年诉讼时效已过驳回。9 人陪审团约 2 小时裁决。Musk 称为”日历技术细节”并计划上诉第九巡回法院。

关键信息: Musk, OpenAI, 诉讼, 法律

METR 首份 Frontier Risk Report:深度覆盖四家前沿实验室内部 Agent 失控风险

METR 基于对 Anthropic、Google、Meta、OpenAI 内部模型和信息的深度访问发布首份前沿风险报告,聚焦实验室是否可能失去对内部部署 Agent 的控制。David Rein 透露曾在 Anthropic 进行为期一个月的嵌入式安全演练。

关键信息: METR, AI安全, Agent失控风险, 前沿模型

Dario Amodei 预警:AI 或将带来高 GDP 增长 + 高失业率并存的史无前例经济格局

Anthropic CEO Dario Amodei 提出 AI 可能创造前所未有的宏观经济组合:极高 GDP 增长同时 10%+ 失业率。社区讨论焦点:如果劳动力收入大幅下降,谁来维持消费需求。

关键信息: Amodei, AI经济影响, 失业率, GDP增长

X平台动态

从追踪的 AI 领域 28 个来源(22 个账号 + 6 个搜索查询)中精选当日最有价值的推文,双语展示

Google I/O 余波:Hassabis 预测与社区反应

@linusekenstamDemis Hassabis 预测 2029/2030 年实现 AGI,称”距离 AGI 仅数年” 🫧 Google I/O

“We are only a few years away from AGI” — Demis Hassabis。他的当前预测是 2029/2030 年。不是炒作,只是 Demis 冷静地说出这个判断。

原文:”We are only a few years away from AGI” — Sir Demis Hassabis. 2029/30 is his current estimates. No hype, just Demis looking at the data.

@linusekenstamAI 时代的影响将是工业革命的 10 倍、速度快 10 倍——Sundar Pichai 🫧 Google I/O

AI 时代将比工业革命影响大 10 倍、速度快 10 倍。但未来不是已经写定的——Sundar Pichai。

原文:The Age of AI will be 10x more impactful, 10x faster than the Industrial Revolution. But the future is not written. — Sundar Pichai

@simonw对 Google I/O 持观望态度:”我更愿意写已经实际交付的产品” 🫧 独立分析

我对今年的 Google I/O 没有太多可说的,因为我更愿意写已经交付的产品,而不只是宣布路线图的东西。不过,等产品实际推出后,我会有更多内容。

原文:I don’t have much to say about this year’s Google I/O because I prefer to write about products that have shipped, not just roadmap announcements. I’ll have more to say once things ship.

@OfficialLoganKGemini 3.5 是新纪元的开始——Google 花了 2.5 年铺设基础设施和产品地基 🫧 Google

Gemini 3.5 感觉像是 Gemini 新纪元的开始。过去 2.5 年我们铺设了基础设施、产品和分发渠道——现在一切开始汇聚。

原文:Gemini 3.5 feels like the start of a new era for Gemini. We spent the last 2.5 years putting the infrastructure, products, and distribution in place — now it’s all coming together.

重大发布与突破

@OpenAI在平面单位距离问题上取得突破——Erdős 1946 年提出的著名开放问题 🫧 研究突破

今天,我们分享在平面单位距离问题上的突破——这是 Paul Erdős 在 1946 年首次提出的著名数学开放问题。

原文:Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in 1946.

MCP/ClaudeCode 生态

@AI_devsAWS MCP Server 正式 GA——15,000+ AWS API 可通过 Claude Code 经现有 IAM 凭证直接调用,全程 CloudTrail 审计 🫧 基础设施

AWS MCP Server 正式发布。15,000 多个 AWS API 现在可以从 Claude Code 内部调用——使用现有 IAM(身份与访问管理)凭证,完整 CloudTrail 日志记录。IDE 正在成为云服务的控制平面。

原文:AWS MCP Server just went GA. 15,000+ AWS APIs now callable from inside Claude Code — via your existing IAM credentials, full CloudTrail logging. The IDE is becoming the control plane.

@AI_devsAgent Safety Checks v0.1 上线:代理工具调用前后多层安全检查 🫧 安全工具

Agent Safety Checks v0.1 已上线,在 AI 代理调用工具前后进行多层安全检查:Tool Call Dry-run Validator、Tool Response Sanitizer、Schema Drift Checker、Identity Scope Checker、Quota Limit Checker。

原文:Agent Safety Checks v0.1 is live. Safety checks before/after AI agents call tools: Tool Call Dry-run Validator, Tool Response Sanitizer, Schema Drift Checker, Identity Scope Checker, Quota Limit Checker.

具身智能社区

@embodied_aiTeleoperation 作为具身 AI 的核心数据采集路径 🫧 Embodied AI

Teleoperation(远程操作):人类远程控制机器人手臂 → 收集真实运动数据 → AI 学习自主复现任务。这是人类技能与具身 AI 之间的桥梁。Alicia-D Leader Arm(730g,无线)作为遥操作输入端引发关注。

原文:Teleoperation: humans control a robot arm remotely → collect real motion data → AI learns to replicate tasks autonomously. The bridge between human skill and embodied AI.

@AGIMUSInria 联合提出规划+学习融合框架,使机器人行为更精确、更自适应 🫧 Robot Learning

机器人如何学习更精确、更自适应的行为?AGIMUS 合作方 Inria 提出了一个将规划(Planning)与学习(Learning)相结合的框架,使两个系统能互相促进、共同提升。

原文:How can robots learn more precise and adaptable behaviors? AGIMUS partners @Inria propose a framework that combines planning and learning, allowing both systems to improve each other.

社区声音

@jeremyphoward转推——Gemini 3.5 Flash 生成的 three.js 场景大量刷屏引发反感 🫧 社区评论

谁再发 Gemini 3.5 Flash 生成的 three.js 场景,将被永久拉黑。这简直是我见过最恐怖的东西。

原文:Everybody who posts three.js scenes generated by Gemini 3.5 Flash will get blocked for life. This is the most cursed thing I’ve ever seen.

关键词

#EmbodiedAI #RobotLearning #Humanoid #Sim2Real #GoogleIO #Gemini3.5Flash #Antigravity #MCP #ClaudeCode #Karpathy #Anthropic #Agent #OpenAI


数据来源: smol.ai, X/Twitter (twitterapi.io) | 生成时间: 2026-05-21 15:00