AI 日报：2026-05-26

1. Anthropic 与 KPMG 达成全球联盟，Claude 将嵌入 27.6 万人工作流

Anthropic 官方新闻页显示，KPMG 与 Anthropic 建立战略联盟，把 Claude 集成进 KPMG 的 Digital Gateway 等核心业务系统，覆盖全球 138 个国家和地区、超过 276,000 名员工。

💡 四大会计师事务所把大模型放进审计、税务和咨询工作流，说明企业 AI 正从试点问答进入核心交付系统。

2. PwC 扩大部署 Claude，用于技术构建、交易执行和企业职能改造

Anthropic 5 月发布的合作更新称，PwC 正在部署 Claude 来构建技术、执行交易并重塑客户企业职能，体现专业服务机构对 AI Agent 工作流的加速采用。

💡 PwC 与 KPMG 同期推进 Claude，意味着咨询和专业服务正在成为大模型企业化落地的高价值战场。

3. Anthropic 推出 Claude for Small Business，面向小企业提供连接器和即用工作流

Anthropic 公告称 Claude for Small Business 是一组连接器和可直接运行的工作流，目标是把 Claude 放进小企业每天使用的工具中。

💡 大模型公司的企业策略不只面向巨头客户，也开始用“连接器 + 模板工作流”降低中小企业使用门槛。

4. Anthropic 提升 Claude 使用上限，并披露与 SpaceX 的算力合作

Anthropic 表示已提高 Claude 使用限制，并与 SpaceX 达成新的算力合作以提升近期容量；公告还提到与 Amazon、Google 和 Broadcom 的更大规模算力安排。

💡 当模型体验受限于推理容量时，算力协议本身就是产品竞争力，直接影响付费用户可用额度和响应稳定性。

5. Google I/O 2026 汇总继续发酵：Gemini Omni、Antigravity、Universal Cart 成为 AI 主线

Google 官方 I/O 2026 汇总称，本届大会发布了 Gemini Omni、Google Antigravity、Universal Cart 等一系列 AI 更新，并强调 AI 正进入搜索、购物、开发者工具和内容标识场景。

💡 Google 正把 Gemini 作为横跨消费入口、开发工具和商业闭环的平台能力，后续会影响搜索流量和 AI 应用开发路径。

6. GitHub Copilot Web 调整可用模型，移除部分 Gemini 和 GPT-5.2 Codex 相关模型

GitHub Changelog 5 月 20 日称，Copilot Chat on the web 更新模型选择，移除了所有 Gemini 模型及若干其他模型，同时 OpenAI 和 Claude 模型仍按不同计划可用。

💡 编程助手的模型菜单仍在快速调整，开发团队需要关注默认模型、可用性和成本策略变化。

7. Gemini 3.5 Flash 在 GitHub Copilot 中 GA，主打接近 Pro 的编码质量和 Flash 成本速度

GitHub Changelog 5 月 19 日表示，Google Gemini 3.5 Flash 已在 GitHub Copilot 中逐步开放，GitHub 称早期测试显示其具备接近 Pro 的编码质量以及 Flash 层级的速度和成本优势。

💡 代码助手竞争正在从“最强模型”扩展到“质量、延迟、成本”的组合优化，Flash 类模型可能更适合高频开发任务。

8. OpenAI Codex 继续向桌面开发工作台扩展，强调计算机使用、浏览、图像生成和插件

OpenAI “Codex for (almost) everything” 页面摘要显示，更新后的 Codex macOS 与 Windows 应用加入 computer use、应用内浏览、图像生成、记忆和插件，以加速开发者工作流。

💡 编码 Agent 正从终端工具变成多能力桌面工作台，未来开发体验会更像“多 Agent 协作环境”而不是单一补全插件。

9. Hugging Face：Ai2 发布 OlmoEarth v1.1，推进更高效的地球观测模型家族

Hugging Face 博客近期刊出 Ai2 的 “OlmoEarth v1.1”，介绍一组更高效的地球观测模型，用于遥感和地理空间 AI 场景。

💡 开放模型生态正在向遥感、地球科学等垂直领域深入，行业模型会比通用聊天模型更接近真实生产价值。

10. arXiv：EvoMemBench 从“自进化”角度评测 Agent 记忆能力

arXiv 论文 “EvoMemBench” 指出，现有 LLM Agent 基准多关注推理、规划和执行，但记忆同样关键；论文提出统一基准，用于评估 Agent 随时间存储、更新和检索信息的能力。

💡 长期可用的 Agent 离不开可靠记忆机制，记忆评测会成为判断个人助理和企业 Agent 是否能持续工作的关键指标。