上周跟一个做保险的朋友吃饭,他给我看了张截图。
就一张图,我看了十秒,愣是没找到那个关键的按钮在哪。灰扑扑的界面,密密麻麻的菜单,字体小得跟蚂蚁似的,各种选项卡堆在一起,感觉点错一下能把整个公司的数据都删了。
我问:这什么软件,程序员喝醉的时候写的?
他苦笑:这是我们每天用的核心系统,2003年上线,到现在没换过。
然后他说了句话,我一直记着——
“每次培训新人,光教他们用这个系统,就得两周。两周啊,就为了学会点鼠标。”
我当时就想,这活儿要是能让AI干了就好了。
没想到,真有人把这想法做成了。
01 一个不太一样的AI测试
先说背景。有一家叫Pace的公司,专门给保险行业做AI代理,处理投保单录入、首次损失通知这类重复性工作。他们的想法很直接:保险行业这些繁琐的录入,能不能让AI替人干了?
想法很好,但问题来了。
保险行业的软件,跟咱们平时用的那些完全不是一个物种。你用的是设计精美的App,他们用的是那种一看就知道是二十年前某个工程师赶工出来的系统。界面拥挤得像早高峰地铁,每个按钮都小得需要用放大镜找。关键是还不能点错,点错一步就得从头再来。
Pace团队测试过很多AI模型,结果都不太理想。要么点不准,要么点着点着就忘了自己要干嘛,要么直接卡在某一步没了反应。
用他们创始人的话说:“如果一个AI能在这堆老古董系统里不迷路、不点错、不崩溃,那它去操作世界上任何软件都不会有问题。”
这话听起来像夸张,但他们真的去试了。
而且,他们用的是OpenAI最新的GPT-5.4。
02 1分24秒,一次完整的流程跑通
Pace最近把测试过程剪成了一分多钟的视频,我看完直接给那个做保险的朋友发了过去。
视频里,GPT-5.4面对的是一个典型的保险业务界面——左侧菜单一长串,中间表单一堆空,右侧还飘着几个悬浮窗。每个按钮都挤在一起,鼠标稍微偏一点就会点错。
说实话,我看着都替它捏把汗。
但接下来发生的事,让我有点意外。
AI先是快速扫描了整个屏幕,然后鼠标开始移动。不是那种试探性的、小心翼翼移动,而是非常笃定地直奔目标。
点开第一个菜单,等加载,再点第二个菜单,再等加载,然后找到对应的表单开始填写。
填到一半,需要从旁边的PDF里取数据。它自己打开PDF,找到对应信息,复制,粘贴回表单,然后继续往下填。
遇到需要勾选的选项,它会停顿一下确认,确保没勾错。遇到页面加载慢,它就等着,不像以前那些急性子AI疯狂点击直到系统卡死。
最关键的是,整个流程需要在多个不同系统之间切换。一会儿在这个界面填数据,一会儿跳到那个界面查信息,一会儿又切回来继续填。就跟我们平时工作一样,在Excel、邮箱、核心系统之间来回切换。
人类干这事,稍不留神就会把A系统的数据填到B系统的错误位置。但GPT-5.4全程没有跑偏。
1分24秒后,一个原本需要人类专员花十分钟处理的工单,被它完整跑通了。
我朋友看完视频,沉默了几秒,然后问了一句:
“那我培训新人的那两周,是不是可以省了?”
03 这次不一样在哪?
其实AI操作电脑这事,几年前就有人在尝试。但一直没做成规模化应用,主要是几个核心问题解决不了。
这次GPT-5.4到底突破了什么?我梳理了一下,主要是四个维度的实质性提升。
第一个突破:点击精度终于达标了。
你可能觉得这不算什么——点个鼠标而已。
但在那种老系统里,情况完全不同。按钮小、间距密、背景杂乱,有时候一个页面上有几十个可点击元素,视觉上还高度相似。稍微偏几个像素,就可能点错。
早期模型有个典型问题:明明识别出了“提交”按钮,鼠标移动过去,偏差两三个像素,点到了旁边的“取消”。然后整个流程崩了,需要人工介入恢复。
GPT-5.4在视觉 grounding 能力上有明显提升。它能更准确地区分哪些区域真正可交互,哪些只是视觉装饰。即使在最拥挤的界面上,也能保持较高的点击命中率。
这相当于从“大致能点中”进化到了“精准命中”。
第二个突破:长流程推理能力增强。
真实的保险业务,从来不是三五个步骤能完成的。
处理一份投保单,典型的流程可能是:打开系统→进入客户管理模块→搜索目标客户→核对身份信息→切换到保单模块→创建新保单→填写基本信息→上传附件→切换到核保系统→查询费率→返回填写费率→提交审核……
这一套下来,几十步是常态,上百步也不罕见。中间还随时可能遇到异常情况——字段校验不通过、某个子系统响应超时、附件格式异常需要处理。
早期模型的问题在于,走到后面就忘了前面的上下文。可能第20步还在正轨,第30步开始出现偏离,第50步已经完全丢失任务目标。
GPT-5.4在长序列任务中保持了较好的状态跟踪能力。它知道当前进度、下一步该做什么、遇到分支如何决策。这种能力,接近一个熟练员工的操作连贯性。
第三个突破:响应速度提升带来迭代效率。
速度本身也是一种能力维度。
在实际生产环境中,如果AI处理一个工单需要5分钟,而人类只需要3分钟,那ROI很难算得过来。如果处理时间更长,那规模化应用就更难落地。
更重要的是,开发AI代理本身也需要速度。你要测试不同的提示词策略、不同的异常处理逻辑、不同的流程编排方式。每次测试都要跑完整套流程。模型响应慢,一天跑不了几轮测试,迭代速度就会被严重拖慢。
GPT-5.4的响应速度提升,让Pace团队可以快速跑通数千个工作流测试,快速定位失败节点,快速优化迭代。这种效率,是打造可靠企业级AI的必要条件。
第四个突破:界面空间记忆能力。
这一点偏技术,但对保险这类业务特别重要。
大多数桌面软件有个特点:界面布局相对稳定。今天“提交”按钮在右上角,明天还在右上角;今天“客户信息”在左侧第二个标签页,明天也还在那。
早期模型每次操作都需要重新“理解”整个界面,重新识别每个元素的位置和功能,就像每次打开软件都是第一次见面,既低效又容易出错。
GPT-5.4现在可以对界面空间布局形成记忆。它知道“这个系统的保单录入界面,上次操作过的区域,这次大概率还在同样的位置”。这种记忆能力,减少了重复计算开销,提升了操作的一致性,特别是在处理长周期、高重复度的流程时,效果比较明显。
04 一个反常识的思路
说到这里,可能有读者会问:这些老软件这么难用,为什么不直接替换掉?
这个问题触及了企业数字化转型的核心困境。
事实是,保险公司的核心系统大多是十几二十年前建设的,经过无数次功能叠加、补丁修复、合规改造,已经成为一个复杂度极高的“遗留系统”。里面沉淀了海量的业务规则、历史数据、监管要求,牵一发而动全身。
替换它?相当于给正在飞行的飞机更换发动机。理论上可行,但风险、成本、周期都超出大多数企业的承受范围。所以绝大多数保险公司选择与这些老系统共存,再难用也得继续用。
Pace团队选择了一个不同的技术路径。
他们没有试图去替换这些庞大复杂的核心系统,而是反其道行之:让AI学习操作这些系统,像人类员工一样与之交互。
这个思路的价值在于:一个新员工入职,需要数周培训才能熟练操作这些软件。培训成本是实打实的,而且员工可能干两年就离职,投入沉淀为沉没成本。
AI不同。一旦它掌握了操作路径,就能稳定执行,不受疲劳、情绪、注意力波动的影响。
更重要的是,这种方案对现有系统零侵入。不需要接口对接、不需要数据迁移、不需要漫长的实施周期。AI直接通过人机交互界面,与存量系统对话。
这可能代表了企业数字化的一种新方向:不追求“推倒重来”,而是让AI学会与旧世界共存。
05 从保险到更广阔的场景
当然,GPT-5.4的能力边界不止于保险行业。
如果一个AI能在最复杂、最反人类的保险遗留系统里稳定运行,那它在其他场景的表现只会更好。
那些同样被老旧系统包围的领域呢?医疗机构的病历系统、银行的后台交易处理、政府部门的审批流程、制造业的供应链管理……哪一个不是被各种遗留软件支撑着日常运转?
这些领域有个共同特征:系统太老、太复杂、太核心,没人敢动。但它们同样有个共同需求:提高运营效率、降低人工成本、减少操作差错。
AI操作计算机的能力,正好切入这个痛点。
Pace和OpenAI合作做的这件事,本质上是在验证一个更大的可能性——让AI成为任何软件的“通用操作层”。无论你的软件多老、多封闭、多反人类,AI都能学会操作,帮人类把那些重复枯燥的流程任务承接过来。
这个想象空间,可能比让AI生成内容、写代码要大得多。
06 一点观察
写完这篇文章,我又想起那个做保险的朋友。
他入行八年,换了三家公司,用的软件都是一个路数——老、慢、难用。每次培训新人,他都要花大量时间教人家怎么点鼠标、怎么躲坑。新人学会之后,天天对着屏幕填表,填到眼酸手累,然后干两年走了,再来一批新人,他继续教。
这就是他的日常工作。
如果AI能把那些机械的录入工作承接过去,他就可以腾出手来做点更有价值的事——跟客户沟通、琢磨业务逻辑、思考产品优化。
这大概是技术应有的样子。
不是取代人,而是把人从低价值重复劳动里解放出来,让人去做人更擅长的事。
GPT-5.4迈出了这一步。虽然目前只是在保险系统里稳定跑通了一些流程,但这一步的方向,值得关注。
至少我那朋友看完视频后,说了句:
“这玩意儿要是真能落地,我得请那个AI喝一杯。”