微软让 GPT 和 Claude 协同工作——结果胜过市面上所有人工智能研究工具

分类：热点 | 时间：2026-03-31 05:49 | 关注

深度研究人工智能一直是今年科技界最热门的竞赛领域之一。谷歌宣布将于2024年12月推出其名为Gemini的研究代理。OpenAI于2025年2月发布了自己的研究代理。，xAI随后也效仿Perplexity 加倍投入，Anthropic 的 Claude 在需要详细、引用答案的专业人士中建立了一批忠实的追随者，并在去年四月推出了其代理人。

每家公司都试图说服你，他们自家的人工智能模型是业内最聪明的研究人员。微软却反问道：为什么要只选一个呢？

公司宣布周一，Copilot Researcher 工具新增了两项功能——“批判与指导”——分别让 OpenAI 的 GPT 和 Anthropic 的 Claude 依次处理同一项研究任务。微软根据行业基准测试结果显示，其得分高于测试中的所有系统，包括来自顶级人工智能公司的模型。

微软解释说：“Critique 是一个全新的多模型深度研究系统，专为复杂的科研任务而设计。它将生成和评估分开，并结合了 Frontier 实验室的多个模型，包括 Anthropic 和 OpenAI 的模型。一个模型负责生成阶段，规划任务，迭代检索，并生成初始草稿；而另一个模型则专注于审查和完善，在最终报告生成之前充当专家评审员的角色。”

Critique旨在解决的基本问题是：如今所有AI研究工具的工作方式都大同小异。你提出一个问题，一个模型规划搜索路线、搜寻资源、撰写报告，然后将其返回给你。所有这些工作都由这个模型独立完成，没有任何人对其进行审核。

这可能会导致出现一些幻觉、引用错误、虚假或不准确的说法等等。

审核功能将工作流程分为两部分。GPT 负责第一阶段——它规划研究、收集资料并撰写初稿。然后，Claude 会作为严格的编辑介入，审查报告的事实准确性、引用质量以及答案是否真正回答了问题。只有经过审核，最终报告才会交付给用户。微软表示，角色最终也可以反过来，由 Claude 撰写初稿，GPT 进行审核，但目前仍由 GPT 先进行审核。

在DRACO基准测试——一项涵盖医学、法律和技术等 10 个领域 100 项复杂研究任务的标准化测试——Copilot with Critique 得分 57.4 分，而 Anthropic 的 Claude Opus 4.6 单独得分 42.7 分。微软的综合系统比第二名高出近 14%。

　　图片来源：微软

最大的进步体现在分析的广度和呈现质量上，事实准确性也得到了显著提高。

第二个功能“理事会”采用了不同的方法来解决这个问题。它不是让一个模型审查另一个模型的工作，而是运行 GPT 和 Claude。同时地并将两份报告并排显示。第三个“评判”模型随后会阅读这两份报告，并撰写一份摘要，解释两个人工智能在哪些方面达成一致，在哪些方面存在分歧，以及每个模型都发现了对方遗漏的独特视角。手动比较人工智能研究工具此前，用户一直需要自己完成这项工作。

在批判中，模型本质上合作在理事会中，模型们彼此之间互相交流。竞争互相敌对。

在“研究员”模式下，“评论”是默认体验；而在“理事会”模式下，您需要从选择器中选择“模拟理事会”才能激活并排模式。目前，这两个功能都对已注册 Microsoft Frontier 计划的用户开放，该计划是 Copilot 最新功能的早期访问渠道。用户需要 Microsoft 365 Copilot 许可证，并且还必须注册 Frontier 计划才能访问这些功能。

　　图片来源：微软

OpenAI 和微软建立了数十亿美元的合作关系，但微软认为没有哪个单一模型能够长期占据主导地位，真正的价值在于编排层，它将任务路由到效果最佳的组合。

温馨提示：内容仅供参考