AI资讯日报 · 2026年5月20日 | Ciallo～(∠・ω< )⌒☆

Google I/O 2026 余波持续：Gemini 3.5 Flash Agent/Coding 最强模型正式 GA，Antigravity Managed Agents 开放 API；OpenAI 宣布数学突破；Hassabis 预测 2029/30 AGI；MCP 生态日活持续升温

具身智能

从 #EmbodiedAI、#RobotLearning、#Humanoid、#Sim2Real 标签中精选的具身智能领域最新动态

远程操作 + 具身 AI 数据管线：Teleoperation 成为人-机技能迁移核心范式

社区关注 Teleoperation（远程操作）作为具身 AI 数据采集的关键路径：人类远程控制机器人手臂收集真实运动数据，AI 从中学习自主复现任务。Alicia-D Leader Arm（730g 轻量级机械臂）作为遥操作输入端引发讨论。同时有开发者分享了家庭任务视频采集与上传端到端管线（device → storage），主要工程挑战在边缘场景处理。

关键信息: Teleoperation, Alicia-D, 数据管线, 具身AI

AGIMUS/Inria 提出规划+学习融合框架：机器人行为的学习与规划双向促进

Inria 联合 AGIMUS 项目提出一种将规划（Planning）与学习（Learning）结合的框架，使机器人能在执行任务时同时提升规划精确度和学习适应性，瞄准更灵活、自适应的机器人行为生成。

关键信息: AGIMUS, Inria, RobotLearning, 规划+学习

人形机器人社区讨论活跃：Unitree 机器人引发技术到社会经济学讨论

Unitree 人形机器人在 X 平台引发热议，讨论从技术延伸到社会经济学层面——包括人形机器人在劳动力替代、社会结构等方面的潜在影响。Embodied AI 视觉挑战（FOV & HDR，光照突变导致深度数据丢失）也受到关注。

关键信息: Unitree, Humanoid, 人形机器人, 视觉挑战

Sim2Real 迁移实战：关节角历史+陀螺仪观测实现平滑 Sim2Real 迁移

日本机器人社区在 Sim2Real 方向有活跃实验：将关节角历史（5 步）和陀螺仪数据加入模仿强化学习观测，显著改善了 Sim2Real 迁移的平滑度。同时针对机械结构低刚性和间隙导致游脚偏移的问题，通过机械补强和足位置奖励函数优化实现了稳定转向。

关键信息: Sim2Real, 模仿强化学习, IsaacLab, 机器人控制

核心摘要

**远程操作 + 具身 AI**：Teleoperation 成为具身 AI 核心数据采集范式，轻量化机械臂实现人-机技能迁移
**Gemini 3.5 Flash 正式 GA**：Google 最强 Agent/Coding 模型，1M 上下文 + 4 级思考，Arena #9；但价格争议持续——比 3 Flash 贵 5.5x
**Antigravity Managed Agents**：单 API 调用获得 Agent + Linux 沙箱，93 并行 Agent 12h 构建操作系统，花费 <$1K
**Hassabis 预测 2029/30 AGI**：Demis Hassabis 称”距离 AGI 仅数年”，预测 2029/2030 年实现
**AWS MCP Server 正式 GA**：15,000+ AWS API 可通过 Claude Code 直接调用，基于现有 IAM 凭证
**MCP 生态持续升温**：自托管沙箱 + MCP 隧道、Agent Safety Checks、10,000+ 公共 MCP 服务器
**OpenAI 数学突破**：宣布在平面单位距离问题（Erdős 问题）上取得突破

模型发布

Gemini 3.5 Flash：Google 最强 Agent/Coding 模型正式 GA，Arena #9，速度 4x—12x 领先同类

Google DeepMind 发布 Gemini 3.5 Flash，定位为面向 Agent 与编程的最强模型，已正式 GA。核心规格：1M token 上下文、65K 最大输出、4 级思考模式（minimal/low/medium/high，默认 medium）、跨轮次”思维保持”。输入模态支持文本、图像、视频、语音。定价 $1.50/$9.00 每百万输入/输出 token，缓存输入享 90% 折扣。

第三方评测：Artificial Analysis 评其为速度-智能帕累托前沿领导者（Intelligence Index 55，+9 vs 3 Flash），>280 output tok/s，MMMU-Pro 84%，但运行成本比 Gemini 3 Flash 高 5.5x。Arena 排名 #9（1507 分，+70）。社区主要争议在价格——@simonw 指出价格是 3 Flash 的 3 倍，@enricoros 计算比 15 个月前 2.0 Flash 贵 22.5x。Google 自报 Terminal-Bench 2.1 得分 76.2%、GDPval-AA Elo 1656。

GitHub Copilot、Cursor、VS Code 已同步集成 Gemini 3.5 Flash。

关键信息: Google, Gemini 3.5 Flash, Agent, Coding, 1M上下文, 思考模式, 价格争议

Cerebras 运行 Kimi K2.6：万亿参数模型推理速度达 1,000 tok/s，创历史记录

Cerebras 在 enterprise trials 中以约 1,000 tok/s 运行万亿参数模型 Kimi K2.6，Artificial Analysis 称为”史上最快的前沿模型性能”。核心技术：模型层跨晶圆切分避免外部内存读取，速度本质是内存带宽问题。

关键信息: Cerebras, Kimi K2.6, 推理速度, 内存带宽

Hugging Face Carbon：DNA 基础模型推理速度超 Evo2-7B 达 275 倍，单 GPU 可处理全基因组

Hugging Face 发布 Carbon 系列基因 DNA 基础模型。Carbon-3B 声称匹配 Evo2-7B 性能，推理速度快 250–275 倍，单 GPU 两天内可处理整个人类基因组。技术要点：确定性 6-mer tokenization + 训练后期切换分解损失函数（FNS）。

关键信息: Hugging Face, Carbon, DNA模型, 基因组, 生物AI

产品动态

Antigravity 2.0：从编程助手进化为完整 Agent 平台，Managed Agents API 开放 Google 内部沙箱

Google 将 Antigravity 扩展为完整 Agent 执行平台：CLI、SDK、桌面端 2.0、Managed Agents in Gemini API（单 API 调用获得 Agent + Linux 沙箱，支持 Bash/Python/Node/文件/浏览器）、Android 支持、AI Studio 一键导出。Managed Agents 暴露 Google 内部使用的托管 Linux 沙箱，支持 repo 挂载和 Markdown 定义技能。核心演示：93 并行子 Agent 12 小时构建完整操作系统，15K+ 次请求、2.6B token、花费不到 $1,000。

但 agy CLI 不再开源且不支持 ACP 协议，引发社区反弹（via @pvncher/@jeremyphoward）。

关键信息: Google, Antigravity, Agent平台, 并行Agent, Managed Agents, 开源争议

Gemini Omni Flash：跨模态视频生成/编辑首发，角色一致性领先，已上线 Gemini App/Flow/Shorts

Google DeepMind 发布 Gemini Omni——将 Gemini 推理与世界知识结合生成式媒体，首发视频生成/编辑。支持文本、图像、音频、视频输入，多轮编辑保持角色一致性和物理正确。Omni Flash 已在 Gemini App、Flow、YouTube Shorts 上线，API 数周内提供。Demis Hassabis 称为”世界理解与多模态编辑的重大飞跃”，被解读为世界模型（World Model）路线的重要信号。

关键信息: Google, Gemini Omni, 视频生成, 多模态, 世界模型

Gemini Spark：Google 24/7 个人 Agent，云端 VM 持续运行，集成 Google 全家桶

Google 推出基于专用云虚拟机的 24/7 个人 AI 代理，可在用户关闭电脑后持续后台运行。集成 Docs、Calendar、Slides 等 Google 工具，计划支持 MCP 协议及 macOS 桌面端。用户确认重大操作前需征得同意。

关键信息: Google, Gemini Spark, 个人Agent, 云端VM, MCP

AWS MCP Server 正式 GA：15,000+ AWS API 可在 Claude Code 中通过 IAM 直接调用

AWS MCP Server 正式 GA——15,000+ AWS API 现在可从 Claude Code 内部通过现有 IAM 凭证调用，完整 CloudTrail 日志记录，可审计。标志着 IDE 成为云基础设施的控制平面。

关键信息: AWS, MCP Server, Claude Code, IAM, CloudTrail

研究论文

NanoGPT-Bench：当前编程 Agent 仅能恢复 9.3% 人类 AI 研发进展，算法创新几乎为零

Intology AI 发布基于 NanoGPT Speedrun 的自主 AI 研发基准。Codex、Claude Code、Autoresearch 仅恢复 9.3% 人类进展，主要来自超参数调优而非算法创新。评估全自主、离线运行，限制在 5 个月世界纪录窗口内减少数据污染。

关键信息: NanoGPT-Bench, AI研发, Agent评估, 基准测试

Databricks MemEx：可编程 Python 草稿板替代上下文窗口堆砌，准确率提升 + 成本降 30%

Databricks 提出 MemEx，在实时内核中保持类型化对象而非填满上下文窗口。前沿模型提升 2–5 准确率点、成本降 25–30%；Qwen 模型准确率近乎翻倍、成本降 40–50%。

关键信息: Databricks, MemEx, Agent记忆, 上下文窗口, 成本优化

RoPE 位置编码内在局限：长上下文中无法同时区分 token 身份与位置，影响 Agent 检索

新论文指出 RoPE 在长上下文中的内在限制——无法同时区分 token 身份和位置，对列表索引检索和 Agent 框架设计有直接影响。（@jeremyphoward 转推）

关键信息: RoPE, 长上下文, 位置编码, 注意力机制

Terminal-Bench Science 发布：Stanford HAI 推出科学工作流 Agent 基准

Stanford HAI 宣布 Terminal-Bench Science——将 AI Agent 评测从纯编程扩展至真实科学工作流，为 Agent 在科研场景的能力评估提供标准化基准。

关键信息: Stanford HAI, Terminal-Bench, 科学工作流, Agent评测

工具框架

Qwen3.7 Preview 登 Arena #6/#5：社区期待 Coder 与 27B 中等规模变体

阿里 Qwen 上架 Qwen3.7 Preview（Max/Plus 变体），位列 Text #6、Vision #5。社区期待具体模型变体发布，尤其 Coder 系列和 27B 中等规模模型。Qwen3.6-27B 在本地推理社区的配置优化持续活跃——IQ4_KS 量化 + ik_llama.cpp 在 RTX 3090 24GB 上可达 72.93 tok/s 解码速度。

关键信息: Qwen, 阿里, Arena, 开源模型, 本地推理

ByteDance Lance：3B 激活参数统一多模态模型，BAGEL 复合架构实现图像/视频全能力

字节跳动发布 Lance，号称 3B 激活参数，支持图像/视频理解、生成和编辑。实际模型文件约 24.7GB（≥40GB VRAM），采用 BAGEL 式复合架构组合 WAN 2.2 + 像素空间图像模型 + Qwen2.5-VL 3B。社区对”3B”标签有争议——总参数量远超此数。

关键信息: ByteDance, Lance, 多模态, 统一模型, 开源

Gutenberg CLI：将 API Spec 与流量抓包自动转为 Agent 可用工具，支持 MCP + Skills

Gutenberg CLI 将 API 规范和流量捕捉转化为 Agent 就绪的工具表面（CLI、MCP、Skills、缓存、策略、证明），不是脚手架而是真正的 AI Agent 可用工具层。开源发布。

关键信息: Gutenberg CLI, MCP, API-to-Tool, 开源, Agent

行业事件

Andrej Karpathy 加入 Anthropic：当日互动最高，将从事 RSI 与预训练方向

当日互动最高的 AI 推文。Karpathy：”我觉得 LLM 前沿的下几年将特别有塑造力，很高兴加入团队回归研发。” Axios 等媒体猜测将从事 RSI/自动研究和预训练工作。业界普遍解读为 Anthropic 的重大人才胜利，在 OpenAI 人才流失背景下更显重要。

关键信息: Karpathy, Anthropic, 人才流动, LLM研发, RSI

Demis Hassabis 预测 2029/30 AGI：Google I/O 现场高光时刻

Demis Hassabis 在 Google I/O 现场表示”我们距离 AGI 仅有几年时间”，给出 2029/2030 年的个人预测时间线。同时回顾了 AlphaFold 团队的关键决策时刻，强调 AI 时代的影响将是工业革命的 10 倍且速度快 10 倍。

关键信息: Hassabis, AGI预测, Google I/O, 2029/2030

OpenAI 宣布平面单位距离问题突破：AI 解决著名 Erdős 猜想

OpenAI 宣布在平面单位距离问题（Planar Unit Distance Problem）上取得突破——这是 Paul Erdős 在 1946 年提出的著名开放数学问题。该成果展示了 AI 在纯数学研究中的前沿应用，是继 AlphaProof 后又一次 AI 数学里程碑。

关键信息: OpenAI, Erdős问题, 数学突破, AI for Math

Musk 诉 OpenAI 案因时效被驳回：9 人陪审团 2 小时裁决，Musk 将上诉

联邦陪审团裁定 Musk 诉 OpenAI/Sam Altman 案因 3 年诉讼时效已过驳回。9 人陪审团约 2 小时裁决。Musk 称为”日历技术细节”并计划上诉第九巡回法院。

关键信息: Musk, OpenAI, 诉讼, 法律

METR 首份 Frontier Risk Report：深度覆盖四家前沿实验室内部 Agent 失控风险

METR 基于对 Anthropic、Google、Meta、OpenAI 内部模型和信息的深度访问发布首份前沿风险报告，聚焦实验室是否可能失去对内部部署 Agent 的控制。David Rein 透露曾在 Anthropic 进行为期一个月的嵌入式安全演练。

关键信息: METR, AI安全, Agent失控风险, 前沿模型

Dario Amodei 预警：AI 或将带来高 GDP 增长 + 高失业率并存的史无前例经济格局

Anthropic CEO Dario Amodei 提出 AI 可能创造前所未有的宏观经济组合：极高 GDP 增长同时 10%+ 失业率。社区讨论焦点：如果劳动力收入大幅下降，谁来维持消费需求。

关键信息: Amodei, AI经济影响, 失业率, GDP增长

X平台动态

从追踪的 AI 领域 28 个来源（22 个账号 + 6 个搜索查询）中精选当日最有价值的推文，双语展示

Google I/O 余波：Hassabis 预测与社区反应

@linusekenstam：Demis Hassabis 预测 2029/2030 年实现 AGI，称”距离 AGI 仅数年” 🫧 Google I/O

“We are only a few years away from AGI” — Demis Hassabis。他的当前预测是 2029/2030 年。不是炒作，只是 Demis 冷静地说出这个判断。

原文：”We are only a few years away from AGI” — Sir Demis Hassabis. 2029/30 is his current estimates. No hype, just Demis looking at the data.

@linusekenstam：AI 时代的影响将是工业革命的 10 倍、速度快 10 倍——Sundar Pichai 🫧 Google I/O

AI 时代将比工业革命影响大 10 倍、速度快 10 倍。但未来不是已经写定的——Sundar Pichai。

原文：The Age of AI will be 10x more impactful, 10x faster than the Industrial Revolution. But the future is not written. — Sundar Pichai

@simonw：对 Google I/O 持观望态度：”我更愿意写已经实际交付的产品” 🫧 独立分析

我对今年的 Google I/O 没有太多可说的，因为我更愿意写已经交付的产品，而不只是宣布路线图的东西。不过，等产品实际推出后，我会有更多内容。

原文：I don’t have much to say about this year’s Google I/O because I prefer to write about products that have shipped, not just roadmap announcements. I’ll have more to say once things ship.

@OfficialLoganK：Gemini 3.5 是新纪元的开始——Google 花了 2.5 年铺设基础设施和产品地基 🫧 Google

Gemini 3.5 感觉像是 Gemini 新纪元的开始。过去 2.5 年我们铺设了基础设施、产品和分发渠道——现在一切开始汇聚。

原文：Gemini 3.5 feels like the start of a new era for Gemini. We spent the last 2.5 years putting the infrastructure, products, and distribution in place — now it’s all coming together.

重大发布与突破

@OpenAI：在平面单位距离问题上取得突破——Erdős 1946 年提出的著名开放问题 🫧 研究突破

今天，我们分享在平面单位距离问题上的突破——这是 Paul Erdős 在 1946 年首次提出的著名数学开放问题。

原文：Today, we share a breakthrough on the planar unit distance problem, a famous open question first posed by Paul Erdős in 1946.

MCP/ClaudeCode 生态

@AI_devs：AWS MCP Server 正式 GA——15,000+ AWS API 可通过 Claude Code 经现有 IAM 凭证直接调用，全程 CloudTrail 审计 🫧 基础设施

AWS MCP Server 正式发布。15,000 多个 AWS API 现在可以从 Claude Code 内部调用——使用现有 IAM（身份与访问管理）凭证，完整 CloudTrail 日志记录。IDE 正在成为云服务的控制平面。

原文：AWS MCP Server just went GA. 15,000+ AWS APIs now callable from inside Claude Code — via your existing IAM credentials, full CloudTrail logging. The IDE is becoming the control plane.

@AI_devs：Agent Safety Checks v0.1 上线：代理工具调用前后多层安全检查 🫧 安全工具

Agent Safety Checks v0.1 已上线，在 AI 代理调用工具前后进行多层安全检查：Tool Call Dry-run Validator、Tool Response Sanitizer、Schema Drift Checker、Identity Scope Checker、Quota Limit Checker。

原文：Agent Safety Checks v0.1 is live. Safety checks before/after AI agents call tools: Tool Call Dry-run Validator, Tool Response Sanitizer, Schema Drift Checker, Identity Scope Checker, Quota Limit Checker.

具身智能社区

@embodied_ai：Teleoperation 作为具身 AI 的核心数据采集路径 🫧 Embodied AI

Teleoperation（远程操作）：人类远程控制机器人手臂 → 收集真实运动数据 → AI 学习自主复现任务。这是人类技能与具身 AI 之间的桥梁。Alicia-D Leader Arm（730g，无线）作为遥操作输入端引发关注。

原文：Teleoperation: humans control a robot arm remotely → collect real motion data → AI learns to replicate tasks autonomously. The bridge between human skill and embodied AI.

@AGIMUS：Inria 联合提出规划+学习融合框架，使机器人行为更精确、更自适应 🫧 Robot Learning

机器人如何学习更精确、更自适应的行为？AGIMUS 合作方 Inria 提出了一个将规划（Planning）与学习（Learning）相结合的框架，使两个系统能互相促进、共同提升。

原文：How can robots learn more precise and adaptable behaviors? AGIMUS partners @Inria propose a framework that combines planning and learning, allowing both systems to improve each other.

社区声音

@jeremyphoward：转推——Gemini 3.5 Flash 生成的 three.js 场景大量刷屏引发反感 🫧 社区评论

谁再发 Gemini 3.5 Flash 生成的 three.js 场景，将被永久拉黑。这简直是我见过最恐怖的东西。

原文：Everybody who posts three.js scenes generated by Gemini 3.5 Flash will get blocked for life. This is the most cursed thing I’ve ever seen.