31
03
微软让 GPT 和 Claude 协同工作——结果胜过市面上所有人工智能研究工具
分类:热点 | 时间:2026-03-31 05:49 | 关注
深度研究人工智能一直是今年科技界最热门的竞赛领域之一。谷歌宣布将于2024年12月推出其名为Gemini的研究代理。OpenAI于2025年2月发布了自己的研究代理。,xAI随后也效仿Perplexity 加倍投入,Anthropic 的 Claude 在需要详细、引用答案的专业人士中建立了一批忠实的追随者,并在去年四月推出了其代理人。
每家公司都试图说服你,他们自家的人工智能模型是业内最聪明的研究人员。微软却反问道:为什么要只选一个呢?
公司宣布周一,Copilot Researcher 工具新增了两项功能——“批判与指导”——分别让 OpenAI 的 GPT 和 Anthropic 的 Claude 依次处理同一项研究任务。微软根据行业基准测试结果显示,其得分高于测试中的所有系统,包括来自顶级人工智能公司的模型。
微软解释说:“Critique 是一个全新的多模型深度研究系统,专为复杂的科研任务而设计。它将生成和评估分开,并结合了 Frontier 实验室的多个模型,包括 Anthropic 和 OpenAI 的模型。一个模型负责生成阶段,规划任务,迭代检索,并生成初始草稿;而另一个模型则专注于审查和完善,在最终报告生成之前充当专家评审员的角色。”
Critique旨在解决的基本问题是:如今所有AI研究工具的工作方式都大同小异。你提出一个问题,一个模型规划搜索路线、搜寻资源、撰写报告,然后将其返回给你。所有这些工作都由这个模型独立完成,没有任何人对其进行审核。
这可能会导致出现一些幻觉、引用错误、虚假或不准确的说法等等。
审核功能将工作流程分为两部分。GPT 负责第一阶段——它规划研究、收集资料并撰写初稿。然后,Claude 会作为严格的编辑介入,审查报告的事实准确性、引用质量以及答案是否真正回答了问题。只有经过审核,最终报告才会交付给用户。微软表示,角色最终也可以反过来,由 Claude 撰写初稿,GPT 进行审核,但目前仍由 GPT 先进行审核。
在DRACO基准测试——一项涵盖医学、法律和技术等 10 个领域 100 项复杂研究任务的标准化测试——Copilot with Critique 得分 57.4 分,而 Anthropic 的 Claude Opus 4.6 单独得分 42.7 分。微软的综合系统比第二名高出近 14%。
图片来源:微软
最大的进步体现在分析的广度和呈现质量上,事实准确性也得到了显著提高。
第二个功能“理事会”采用了不同的方法来解决这个问题。它不是让一个模型审查另一个模型的工作,而是运行 GPT 和 Claude。同时地并将两份报告并排显示。第三个“评判”模型随后会阅读这两份报告,并撰写一份摘要,解释两个人工智能在哪些方面达成一致,在哪些方面存在分歧,以及每个模型都发现了对方遗漏的独特视角。手动比较人工智能研究工具此前,用户一直需要自己完成这项工作。
在批判中,模型本质上合作在理事会中,模型们彼此之间互相交流。竞争互相敌对。
在“研究员”模式下,“评论”是默认体验;而在“理事会”模式下,您需要从选择器中选择“模拟理事会”才能激活并排模式。目前,这两个功能都对已注册 Microsoft Frontier 计划的用户开放,该计划是 Copilot 最新功能的早期访问渠道。用户需要 Microsoft 365 Copilot 许可证,并且还必须注册 Frontier 计划才能访问这些功能。
图片来源:微软
OpenAI 和微软建立了数十亿美元的合作关系,但微软认为没有哪个单一模型能够长期占据主导地位,真正的价值在于编排层,它将任务路由到效果最佳的组合。
温馨提示:内容仅供参考