2026年2月，GPT-5.3-Codex和Claude哪个好？多项基准成绩告诉你

领域硝烟在AI编程方面再起，于北京时间二零二六年二月六日上午时分，OpenAI重磅把它那些新一代编程代理模型进行推出，推出的是GPT - 5.3 - Codex，并且它声称这系到目前为止能力最为强大的编程代理，具有戏剧性的是，它发布当时的时机跟竞争对手Anthropic宣布旗舰模型Claude Opus 4.6的升级基本上处于同步状态，两大科技巨头之间正面的那种碰撞，被业内人士解读成争夺涉及千亿美元企业级软件开发市场的“第一枪”已经正式打响。

自我构建的里程碑

按照OpenAI官方所发布的公告来看，GPT - 5.3 - Codex的开发进程自身就是一个具有关键性意义的标志，该模型的早期版本被Codex团队用以调试其自身的训练流程、管理配置部署的基础设施，并且对评估结果进行诊断。

据一位内部从事研发工作的人员称，运用上一代的模型去着手研发新一代模型，且明显加快了发布的速度，这样的实践自身预示着AI研发范式未来的走向。模型深度地参与到自身的构建当中，这标志着AI系统朝着更高阶的自主性迈进了关键的一步。

基准测试的全面领先

对于性能评估来讲，新模型呈现出了全方面都有的优势，在特别严格、属于真实世界软件工程评测范畴的SWE - Bench Pro之中，它有着出色的表现，此测试涵盖了多种编程语言，主要考察的是抗数据污染以及工业级挑战。

编程对战游戏_编程飞机大战_

在用于衡量终端操作能力的Terminal - Bench 2.0上面，这个模型得到了77.3%的分数记录依据。而在那个要求模型于可视化桌面环境里去完成任务的OSWorld基准之上，它所取得的64%的得分情况，经过社交媒体用户予以相应的对比之后，明显地超过了在同期发布的Claude Opus 4.6模型那里所报告出来的65.4%的成绩表现。

效率与能力的双重飞跃

编程对战游戏_编程飞机大战_

OpenAI着重指出，性能呈现飞跃态势，这是伴随着效率有着极大提高而出现的情况。在去完成同样复杂程度的任务之际，GPT - 5.3 - Codex所耗费的token数量，还不到前代模型的一半，与此同时，单个token的推理速度提高了超过25%。

这表明用户能够以更低廉的成本去处理更为繁杂的开发任务，OpenAI表明，Codex正从一个着重于编写与审查代码的工具，演变为一个近乎能够完成开发者于电脑上所开展的各项工作的全能型代理。

瞄准更广阔的企业市场

分析表明，OpenAI的企图并非仅仅局限于开发者工具这件事。它所采用的是2025年公布的GDPVal评估，这个评估是用来衡量模型在44种职业里对于知识型工作任务的完成本领的。

这一信号有所显示，OpenAI的目标市场已然拓展至更为宽泛的企业生产力软件范畴，借由提高模型于终端操作、桌面环境交互等层面的能力，该公司正在为其产品迈入日常办公场景修筑道路。

网络安全能力升至新高

在备受瞩目的安全范畴，OpenAI宣称GPT - 5.3 - Codex是其首个于内部“准备度框架”之中，网络安全相关作业能力类别被划定为“高”的模型，并且还是首个被径直训练用以辨认软件漏洞的模型。

下述公司发言人宣称，虽然至今尚未找寻到那种能够自动化执行为终点到起点这般网络攻击的证据，然而却早已着手部署了直到此刻最为周全的防护体系，与此同时，OpenAI正在加大其安全研究代理Aardvark的测试规模，并且跟开源维护者一同携手展开合作，为流行项目给予免费代码库扫描服务。

白热化的市场竞争

此次发布处于跟Anthropic直接竞争的背景状况下，Anthropic把它的Claude Opus 4.6说成是“最聪明的模型”，着重突出其在大型代码库当中的可靠性以及自我纠错能力，各方在营销方面也展开了交锋，Anthropic打算在超级碗广告中讥讽OpenAI测试广告的决策。

依据风投机构Andreessen Horowitz于本周所公布的调查，尽管OpenAI在总使用量方面处于领先位置，然而在生产环境里使用其最强模型的客户所占比例为46%。并且Anthropic的客户之中，有高达89%的客户正在对其最强模型进行测试或者使用，这显现出不一样的市场策略以及用户接受度。

随着GPT - 5.3 - Codex马上向付费用户开放，且给出“务实型”跟“友好型”两种交互模式供选择，这场把编程代理当作焦点的AI竞赛已然进入全新阶段，未来数周，OpenAI答应会推出更多功能，在您看来，这场“AI编程大战”的下一个关键胜负手，是纯粹的技术性能呢，还是产品生态以及开发者的实际体验呢？欢迎在评论区分享您的观察。