翻译自:https://www.braintrust.dev/blog/portola
TL;DR
核心痛点
Portola 发现,对于注重情感连接的 AI 伴侣(Tolan),传统的自动化评估(Automated Evals)无法捕捉对话质量、情商和真实感等“软性”指标。
解决方案
构建一套基础设施,赋能非技术领域专家(行为研究员、科幻作家、游戏设计师)直接掌控 AI 质量优化的全流程,消除工程瓶颈。
关键流程
- 人工审查与发现:专家通过阅读真实日志发现特定模式(如语气生硬、过度使用俚语)。
- 小数据集策略:不维护庞大的“黄金数据集”,而是针对每个具体问题创建小型、专注的数据集(10-200个示例)。
- 手动评估与迭代:在 Playground 中进行侧重专家直觉的人工对比测试,而非单纯依赖自动化打分。
- 直接部署:专家可将优化后的提示词直接发布到生产环境,无需工程师介入。
成果
- 每周提示词迭代速度提升 4 倍。
- 系统性改善了记忆调用、对话自然度及敏感话题处理能力。
- 结论:在主观且情感复杂的 AI 领域,必须让懂用户体验的领域专家拥有端到端的修改权限。
Portola 开发了 Tolan,这是一款 AI 陪伴应用,旨在为寻求真实、非恋爱 AI 关系的用户充当一位“外星挚友”。与典型的聊天机器人或生产力助手不同,Tolan 专注于通过自然的语音对话和复杂的记忆系统建立真正的情感连接。随着 Portola 团队构建出一个用户可以真正信任的 AI,他们意识到,对话质量、情商和真实行为的细微差别,是无法仅靠自动化评估(automated evals)来捕捉的。
在这个案例研究中,我们将探讨 Portola 如何构建其工作流程,以赋能非技术背景的领域专家(包括一名行为研究员、一名科幻作家和一名游戏设计师),让他们每天花费数小时审查日志、整理数据集,并直接将改进后的提示词(prompt)发布到生产环境,而无需受制于工程瓶颈。
挑战:构建真实的 AI 关系
“人类将如何与 AI 建立健康的关系?”Portola 的首席执行官 Quinten Farmer 问道。“这就是 Tolan 正在探索的问题。”
创建一个感觉真实、像人一样的 AI 伴侣,需要在心理学、叙事和对话设计方面具备深厚的领域专业知识。该团队确定了三个对建立用户信任至关重要的因素:
1. 真实的记忆
记忆系统的运作方式需要让人感觉真实,就像朋友记事一样。完美的复述能力并不重要,重要的是记住内容的微妙细节、它何时自然地浮现,以及它如何融入对话中。“当你和你的 Tolan 聊天时,如果他们记住了你生活中的某个细节并将其带入对话,那种感觉真的非常特别,”Quinten 解释道。
2. 真实的镜像反应
Tolan 如何反映和回应用户的情绪及沟通风格必须感觉自然,而非算法化。这涉及词汇选择、对话节奏和情感共鸣,这些都无法简化为简单的指标。
3. 避免 AI 恐怖谷效应
某些提问模式和互动行为会立即向用户发出“这是 AI”的信号,从而打破真实连接的幻觉。诸如问太多的“二选一问题”(例如“你想要华夫饼还是煎饼?”)或过度使用 Z 世代俚语等模式,都需要持续的监控和调整。
Portola 系统的技术复杂性加剧了这些挑战。他们的提示词管道集成了记忆检索、动态生成的用户上下文、实时语音处理以及用户分享的内容(如照片),从而形成连贯的对话流。这种主观的、基于情境的特质使得对话感觉真实。
工作流程:从监控到部署
Portola 建立了一个工作流程,使领域专家能够识别问题、整理数据集、测试解决方案并部署变更——所有这些都无需工程团队的交接。其工作原理如下:
1. 模式识别与数据集整理
Lily Doyle 是他们的行为研究员,她每天大约花一个小时在 Braintrust 中阅读聊天日志,寻找对话质量中的模式。“我会寻找形式和功能上的重复模式。这意味着既要看信息是如何发送的,也要看 Tolan 实际上说了什么。我也会留意用户沮丧的任何迹象,”Lily 解释道。
当 Lily 通过日志审查、用户反馈或焦点小组会议发现一个重复出现的问题时,她会在 Braintrust 中创建一个标记有特定问题的数据集。每个数据集都是真实对话案例的集合,展示了特定的问题。
她最近在 Braintrust 中追踪的问题示例包括:
somatic-therapy(躯体治疗):Tolan 进行了不必要的躯体治疗式提问,如“你在身体上感觉如何?”or-questions(二选一问题):过多的二元选择题,在对话中感觉不自然。gen-z-lingo(Z 世代俚语):过度使用不符合 Tolan 角色设定的流行俚语。
Portola 并没有维护一个单一的“黄金数据集”,而是在 Braintrust 中创建针对特定问题的数据集,规模从 10 到 200 个示例不等。“搞一个黄金数据集感觉没啥用,”Lily 解释说。“我们使用的是不同的模型,提示词已经改了八次。变化太快了。”
Braintrust 的数据集管理为 Portola 带来了几个技术优势:
- 专注迭代:每个数据集针对特定的行为模式,使衡量改进变得更容易。
- 数据新鲜:数据集反映当前的产品状态,而不是成为陈旧的快照。
- 快速响应:新问题可以立即解决,无需更新全面的测试套件。
- 保留上下文:每个数据集通过 Braintrust 的追踪(trace)存储保留了完整的对话上下文。
2. 基于 Playground 的迭代
一旦数据集整理完毕,Lily 就会转移到 Playground(演练场)进行并排的提示词比较。她会手动审查当前提示词与迭代版本的输出,利用她的领域专业知识评估对话质量。
“我们正在处理的很多东西其实是非常‘软性’(squishy)的,”Lily 解释道。“比如针对用户提供的语境向他们提出最好的问题——这不太容易被量化评估。对于那些往往比较‘软性’的东西,我更喜欢手动操作并使用我自己的判断。”
这种手动评估方法与典型的机器学习工作流程截然不同,但这却是刻意为之。对于 Portola 来说,对话质量从根本上是主观的且依赖于语境。一个自动化评分器可能会标记某个回复太长,但却忽略了该长度在特定语境下创造了情感共鸣。
Playground 是 Lily 的主要工作空间,她在那里:
- 直接从整理好的日志中加载数据集
- 在不同提示词版本之间运行比较测试
- 综合考量语气、得体性和情商来审查输出
- 记录具体的失败或边缘情况
- 与 AI 一起迭代以优化提示词
3. 直接部署,无需工程交接
Portola 工作流程的最后一部分是他们的“提示词即代码”(prompts-as-code)基础设施,这使得领域专家一旦对 Playground 的结果感到满意,就可以直接将更改部署到生产环境。
“我们的科幻作家可以坐下来,看到他不满意的地方,快速针对它进行测试,然后将他的修改部署到生产环境,”Quinten 解释说。“这相当了不起。”
这种端到端的自主权彻底改变了 Portola 的迭代速度。非技术领域的专家拥有从问题识别到生产部署的完整周期。
结果:速度与质量的双重提升
提示词迭代速度提升 4 倍
在实施此工作流程之前,更改提示词需要领域专家和工程师之间的协调。现在,领域专家可以识别问题、创建数据集、测试解决方案并发布更改,从而使每周提示词迭代次数达到原来的 4 倍。
对话质量的改进
团队系统地解决了以下方面的边缘情况:
- 记忆系统的行为和真实的召回模式
- 自然的对话流程和提问模式
- 不同语境下的品牌声音一致性
- 对心理健康等敏感话题的得体处理
该工作流程还使 Portola 能够快速处理模型转换,在切换到新模型时迅速识别并修复退化问题。
主要收获:赋能领域专家
Portola 的方法表明,为通过主观、情感复杂的领域构建值得信赖的 AI 系统,需要赋能非技术领域的专家来推动质量改进。他们的工作流程提供了几个经验教训:
1. 不要强行对定性工作使用自动化评估
“分数是有用的,但我们正在处理的很多东西其实是非常‘软性’的,”Lily 指出。对于对话质量、情商和品牌声音,来自领域专家的人类判断与自动化指标同等重要。
2. 创建针对特定问题的数据集
不要维护那些会变质的全面测试套件,而是在问题出现时创建针对特定问题的聚焦数据集。这在保持敏捷性的同时,建立了关于边缘情况和失败模式的机构知识。
3. 在高风险领域拥抱人工审查
在构建用于情感复杂领域(如伴侣关系、心理健康支持或治疗语境)的 AI 时,来自领域专家的人工审查至关重要。使这些互动生效的细微差别是无法仅靠指标来捕捉的。
为领域专家预留时间,让他们花费数小时审查实际使用情况,并使用 Braintrust 中的人工审查等工具来提高这些时间的效率。
结论
Portola 的工作流程表明,最有能力提高 AI 质量的团队,可能是那些理解你试图创造的用户体验细微差别的非技术领域专家。通过构建基础设施,赋能行为研究员、科幻作家和游戏设计师去识别问题、整理数据集、迭代提示词并将更改直接部署到生产环境,Portola 在迭代速度上实现了 4 倍的提升,同时系统地提高了对话质量。
如果你正在为自动化评估无法捕捉互动精髓的主观、情感复杂领域构建 AI,请参考 Portola 的做法。投资于可观测性,构建针对特定问题的数据集,并赋能你的领域专家端到端地掌控质量改进周期。