当前位置：首页>上古软件>我把GPT-5.4扔进了全美最难用的软件里,结果它活下来了

我把GPT-5.4扔进了全美最难用的软件里,结果它活下来了

2026-05-14 13:37:23

上周跟一个做保险的朋友吃饭，他给我看了张截图。

就一张图，我看了十秒，愣是没找到那个关键的按钮在哪。灰扑扑的界面，密密麻麻的菜单，字体小得跟蚂蚁似的，各种选项卡堆在一起，感觉点错一下能把整个公司的数据都删了。

我问：这什么软件，程序员喝醉的时候写的？

他苦笑：这是我们每天用的核心系统，2003年上线，到现在没换过。

然后他说了句话，我一直记着——

“每次培训新人，光教他们用这个系统，就得两周。两周啊，就为了学会点鼠标。”

我当时就想，这活儿要是能让AI干了就好了。

没想到，真有人把这想法做成了。

01 一个不太一样的AI测试

先说背景。有一家叫Pace的公司，专门给保险行业做AI代理，处理投保单录入、首次损失通知这类重复性工作。他们的想法很直接：保险行业这些繁琐的录入，能不能让AI替人干了？

想法很好，但问题来了。

保险行业的软件，跟咱们平时用的那些完全不是一个物种。你用的是设计精美的App，他们用的是那种一看就知道是二十年前某个工程师赶工出来的系统。界面拥挤得像早高峰地铁，每个按钮都小得需要用放大镜找。关键是还不能点错，点错一步就得从头再来。

Pace团队测试过很多AI模型，结果都不太理想。要么点不准，要么点着点着就忘了自己要干嘛，要么直接卡在某一步没了反应。

用他们创始人的话说：“如果一个AI能在这堆老古董系统里不迷路、不点错、不崩溃，那它去操作世界上任何软件都不会有问题。”

这话听起来像夸张，但他们真的去试了。

而且，他们用的是OpenAI最新的GPT-5.4。

02 1分24秒，一次完整的流程跑通

Pace最近把测试过程剪成了一分多钟的视频，我看完直接给那个做保险的朋友发了过去。

视频里，GPT-5.4面对的是一个典型的保险业务界面——左侧菜单一长串，中间表单一堆空，右侧还飘着几个悬浮窗。每个按钮都挤在一起，鼠标稍微偏一点就会点错。

说实话，我看着都替它捏把汗。

但接下来发生的事，让我有点意外。

AI先是快速扫描了整个屏幕，然后鼠标开始移动。不是那种试探性的、小心翼翼移动，而是非常笃定地直奔目标。

点开第一个菜单，等加载，再点第二个菜单，再等加载，然后找到对应的表单开始填写。

填到一半，需要从旁边的PDF里取数据。它自己打开PDF，找到对应信息，复制，粘贴回表单，然后继续往下填。

遇到需要勾选的选项，它会停顿一下确认，确保没勾错。遇到页面加载慢，它就等着，不像以前那些急性子AI疯狂点击直到系统卡死。

最关键的是，整个流程需要在多个不同系统之间切换。一会儿在这个界面填数据，一会儿跳到那个界面查信息，一会儿又切回来继续填。就跟我们平时工作一样，在Excel、邮箱、核心系统之间来回切换。

人类干这事，稍不留神就会把A系统的数据填到B系统的错误位置。但GPT-5.4全程没有跑偏。

1分24秒后，一个原本需要人类专员花十分钟处理的工单，被它完整跑通了。

我朋友看完视频，沉默了几秒，然后问了一句：

“那我培训新人的那两周，是不是可以省了？”

03 这次不一样在哪？

其实AI操作电脑这事，几年前就有人在尝试。但一直没做成规模化应用，主要是几个核心问题解决不了。

这次GPT-5.4到底突破了什么？我梳理了一下，主要是四个维度的实质性提升。

第一个突破：点击精度终于达标了。

你可能觉得这不算什么——点个鼠标而已。

但在那种老系统里，情况完全不同。按钮小、间距密、背景杂乱，有时候一个页面上有几十个可点击元素，视觉上还高度相似。稍微偏几个像素，就可能点错。

早期模型有个典型问题：明明识别出了“提交”按钮，鼠标移动过去，偏差两三个像素，点到了旁边的“取消”。然后整个流程崩了，需要人工介入恢复。

GPT-5.4在视觉 grounding 能力上有明显提升。它能更准确地区分哪些区域真正可交互，哪些只是视觉装饰。即使在最拥挤的界面上，也能保持较高的点击命中率。

这相当于从“大致能点中”进化到了“精准命中”。

第二个突破：长流程推理能力增强。

真实的保险业务，从来不是三五个步骤能完成的。

处理一份投保单，典型的流程可能是：打开系统→进入客户管理模块→搜索目标客户→核对身份信息→切换到保单模块→创建新保单→填写基本信息→上传附件→切换到核保系统→查询费率→返回填写费率→提交审核……

这一套下来，几十步是常态，上百步也不罕见。中间还随时可能遇到异常情况——字段校验不通过、某个子系统响应超时、附件格式异常需要处理。

早期模型的问题在于，走到后面就忘了前面的上下文。可能第20步还在正轨，第30步开始出现偏离，第50步已经完全丢失任务目标。

GPT-5.4在长序列任务中保持了较好的状态跟踪能力。它知道当前进度、下一步该做什么、遇到分支如何决策。这种能力，接近一个熟练员工的操作连贯性。

第三个突破：响应速度提升带来迭代效率。

速度本身也是一种能力维度。

在实际生产环境中，如果AI处理一个工单需要5分钟，而人类只需要3分钟，那ROI很难算得过来。如果处理时间更长，那规模化应用就更难落地。

更重要的是，开发AI代理本身也需要速度。你要测试不同的提示词策略、不同的异常处理逻辑、不同的流程编排方式。每次测试都要跑完整套流程。模型响应慢，一天跑不了几轮测试，迭代速度就会被严重拖慢。

GPT-5.4的响应速度提升，让Pace团队可以快速跑通数千个工作流测试，快速定位失败节点，快速优化迭代。这种效率，是打造可靠企业级AI的必要条件。

第四个突破：界面空间记忆能力。

这一点偏技术，但对保险这类业务特别重要。

大多数桌面软件有个特点：界面布局相对稳定。今天“提交”按钮在右上角，明天还在右上角；今天“客户信息”在左侧第二个标签页，明天也还在那。

早期模型每次操作都需要重新“理解”整个界面，重新识别每个元素的位置和功能，就像每次打开软件都是第一次见面，既低效又容易出错。

GPT-5.4现在可以对界面空间布局形成记忆。它知道“这个系统的保单录入界面，上次操作过的区域，这次大概率还在同样的位置”。这种记忆能力，减少了重复计算开销，提升了操作的一致性，特别是在处理长周期、高重复度的流程时，效果比较明显。

04 一个反常识的思路

说到这里，可能有读者会问：这些老软件这么难用，为什么不直接替换掉？

这个问题触及了企业数字化转型的核心困境。

事实是，保险公司的核心系统大多是十几二十年前建设的，经过无数次功能叠加、补丁修复、合规改造，已经成为一个复杂度极高的“遗留系统”。里面沉淀了海量的业务规则、历史数据、监管要求，牵一发而动全身。

替换它？相当于给正在飞行的飞机更换发动机。理论上可行，但风险、成本、周期都超出大多数企业的承受范围。所以绝大多数保险公司选择与这些老系统共存，再难用也得继续用。

Pace团队选择了一个不同的技术路径。

他们没有试图去替换这些庞大复杂的核心系统，而是反其道行之：让AI学习操作这些系统，像人类员工一样与之交互。

这个思路的价值在于：一个新员工入职，需要数周培训才能熟练操作这些软件。培训成本是实打实的，而且员工可能干两年就离职，投入沉淀为沉没成本。

AI不同。一旦它掌握了操作路径，就能稳定执行，不受疲劳、情绪、注意力波动的影响。

更重要的是，这种方案对现有系统零侵入。不需要接口对接、不需要数据迁移、不需要漫长的实施周期。AI直接通过人机交互界面，与存量系统对话。

这可能代表了企业数字化的一种新方向：不追求“推倒重来”，而是让AI学会与旧世界共存。

05 从保险到更广阔的场景

当然，GPT-5.4的能力边界不止于保险行业。

如果一个AI能在最复杂、最反人类的保险遗留系统里稳定运行，那它在其他场景的表现只会更好。

那些同样被老旧系统包围的领域呢？医疗机构的病历系统、银行的后台交易处理、政府部门的审批流程、制造业的供应链管理……哪一个不是被各种遗留软件支撑着日常运转？

这些领域有个共同特征：系统太老、太复杂、太核心，没人敢动。但它们同样有个共同需求：提高运营效率、降低人工成本、减少操作差错。

AI操作计算机的能力，正好切入这个痛点。

Pace和OpenAI合作做的这件事，本质上是在验证一个更大的可能性——让AI成为任何软件的“通用操作层”。无论你的软件多老、多封闭、多反人类，AI都能学会操作，帮人类把那些重复枯燥的流程任务承接过来。

这个想象空间，可能比让AI生成内容、写代码要大得多。

06 一点观察

写完这篇文章，我又想起那个做保险的朋友。

他入行八年，换了三家公司，用的软件都是一个路数——老、慢、难用。每次培训新人，他都要花大量时间教人家怎么点鼠标、怎么躲坑。新人学会之后，天天对着屏幕填表，填到眼酸手累，然后干两年走了，再来一批新人，他继续教。

这就是他的日常工作。

如果AI能把那些机械的录入工作承接过去，他就可以腾出手来做点更有价值的事——跟客户沟通、琢磨业务逻辑、思考产品优化。

这大概是技术应有的样子。

不是取代人，而是把人从低价值重复劳动里解放出来，让人去做人更擅长的事。

GPT-5.4迈出了这一步。虽然目前只是在保险系统里稳定跑通了一些流程，但这一步的方向，值得关注。

至少我那朋友看完视频后，说了句：

“这玩意儿要是真能落地，我得请那个AI喝一杯。”

扫码获取更优质的社区平台

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

我把GPT-5.4扔进了全美最难用的软件里,结果它活下来了

01 一个不太一样的AI测试

02 1分24秒，一次完整的流程跑通

03 这次不一样在哪？

04 一个反常识的思路

05 从保险到更广阔的场景

06 一点观察

最新文章

热门文章

随机文章

我把GPT-5.4扔进了全美最难用的软件里,结果它活下来了

01 一个不太一样的AI测试

02 1分24秒，一次完整的流程跑通

03 这次不一样在哪？

04 一个反常识的思路

05 从保险到更广阔的场景

06 一点观察

旧照片,光影流年

老照片:一组民国时期的老照片

最新文章

热门文章

随机文章