在物流领域,ETA 准确性不仅仅是一个指标,它是下游业务的支柱。ETA 延误会引发码头滞留、人员闲置、生产中断以及客户不满。但预测卡车运输的到达时间本身就非常复杂:货物的操作行为、carrier 网络因素、GPS 遥测数据和人为行为都会影响最终结果。
因此,当客户反映其 ETA 准确性下降时,问题会立即随之而来:为什么?
如今,回答这个问题意味着资深分析师需要花费长达两周的时间筛选 400 多个操作变量,从零开始构建每一次调查。他们知道这些模式意味着什么,但他们的大部分时间都花在了寻找模式上,而不是根据模式采取行动。
我们构建了一个系统来扭转这一比例。我们的代理分析工作流负责发现和根因隔离,让分析师能够专注于将洞察转化为行动。
背景鸿沟:跨越数据护城河
project44 追踪数百万次 FTL 运输,单次运输就会产生 400 多个数据点,从运输属性和 GPS 遥测到闲置时间和预测反馈。准确性下降的根本原因可能隐藏在数百个无关变量之下,处于 GPS 定位质量差距、路线复杂性、预约窗口遵守指标和其他维度的交汇点。
仪表板显示的是“现象”,例如表现不佳的 carrier 或有问题的路线。而隔离“原因”则需要为每个客户花费数天甚至数周的时间,且在不同的操作概况之间没有可重复使用的方案。
从孤立指标到统一运输概况
在系统能够推断 ETA 准确性之前,它需要具备与分析师手动收集相同的背景信息:运输属性、停靠顺序、GPS 遥测、设施停留时间以及 ETA 预测历史。我们将这些信息统一为每次运输约 400 个变量,并组织成连贯的分析维度,这是代理工作流运行的基础。
通往自主分析之路
有了这个统一的数据层,我们的架构经历了三个成熟阶段。
阶段 1:LLM 工具使用循环
我们的第一种方法是让 AI 直接访问分析工具并让其自由探索。结果是:缺乏战略方向、不可复现、成本不可预测,且在执行前缺乏人工监督。但有一点是确定的:每一个结论都基于数据计算出的指标,绝非凭空捏造,即使策略欠佳,分析基础也是稳固的。
阶段 2:先计划后执行
系统现在不再立即采取行动,而是先生成结构化的、人类可读的分析计划。分析师在运行任何计算之前会审查、编辑或批准该计划。这带来了可复现性、成本可预测性和信任感。然而,计划仍然是静态的,系统必须在看到任何实际结果之前,预先猜测每一个钻取步骤。
阶段 3:多级假设驱动分析
突破来自于对资深分析师工作方式的模拟:在知道要挖掘什么之前,你无法规划深度挖掘。系统现在分两个层级运行:
第 1 层 – 全范围探索:系统扫描整个数据集,不设过滤器,不设假设。每一个分析步骤都带有一对假设——一个断言某因素影响 ETA 准确性,另一个断言其不影响。这迫使系统去证明其发现,而不是证实其直觉。输出是一组经过证据支持的排名发现,显示真实问题可能存在的地方。
第 2 层 – 基于证据的钻取:只有第 1 层中排名最高的发现才会进入下一步。这是唯一允许进行数据过滤的阶段,确保系统不会过早地缩小视野。
例如,第 1 层识别出某个特定的 carrier 为客户贡献了大量运量,但其 ETA 准确性较低。同时,它还识别出 GPS 覆盖率极低(0-25%)的运输准确性也较低。
第 2 层随后会对该 Carrier 1 进行深度挖掘,同时保留 GPS 覆盖率的发现,从而专门分析该 carrier 的 GPS 覆盖情况。
在这两个层级中,分析师始终参与其中,审查计划、验证发现,并决定哪些建议值得采取行动。
人类优势:提升决策智能
这一自主框架的目标不是取代分析师,而是将发现阶段自动化。通过处理以前需要数周时间才能完成的详尽数据清洗和关系寻找,我们将“人机回环”(HITL)关口提升到了更高、更具战略意义的水平。
这就是决策智能的本质。我们的专家不再把时间花在询问“发生了什么”上;相反,他们利用 AI 生成的证据,专注于缓解措施、协作和长期战略。通过将代理工作流的强大处理能力与资深分析师的细致知识相结合,我们正在将碎片化的数据转化为全球供应链清晰、可操作的路线图。
我们取得的成就
洞察深度:一次典型的运行会在 L1 和 L2 层级执行 60 个分析步骤,涵盖细分、趋势分析、异常检测和实体级钻取。在验证测试中,系统发现了原始手动分析未识别出的新驱动因素,同时匹配了所有现有发现,无一遗漏。
速度:获得洞察的时间缩短至约一小时,比手动深度挖掘分析平均缩短了 16 倍。
成本:代理工作流执行使成本大幅降低了 95%。
我们如何验证
我们将系统的输出与之前针对同一数据集和客户执行的手动深度挖掘进行了对比。
该工作流识别出了原始分析中的每一个驱动因素——与手动分析 100% 重合,并发现了分析师未发现的新因素。大多数分析方法都匹配;工作流引入了一种额外的分析方法。唯一的差距在于报告的颗粒度:计算了细分层级的分解数据,但在自动化报告中未完全体现,这是一个模板问题,而非分析问题。
为了测试可复现性,我们分别在 2 个不同的数据集上以相同的输入运行了 3 次工作流。主要发现和建议在多次运行中保持稳定,重合度达 80–85%。在不同数据集之间,系统产生了独特的、基于数据的洞察,证实了其结论源自数据而非遵循固定脚本。
我们的经验教训
展望未来
如今,系统可以发现根本原因。下一步是自动采取行动。
从检测到纠正。 将发现的路线直接导入下游代理工作流,触发实验以改进 ETA 模型和管道,无需人工干预。
从人工引导到自我引导。 分析师的每一次决策、客户的纠正以及之前运行的结果都会作为强化信号进行反馈。 系统会学习哪些分析路径是有效的,随着置信度的提高,逐步减少 HITL 关口。
从被动到主动。 为高价值客户自动生成分析,并在问题升级前提供量身定制的洞察,同时配备自助式 UI 层,让任何利益相关者都能按需触发分析。