AI产品经理的进化:如何用评测体系让AI真正可用

AI PM 编辑部 · 2025年12月26日 · 2 阅读 · AI/人工智能

正在加载视频...

视频章节

本文基于Aman Khan在AI Engineer World Fair的现场演讲,深度解读AI产品经理(AIPM)在推动AI应用落地时面临的挑战、独特方法论和真实案例。你将看到从自驾车到生成式AI的评测演变,以及如何用“评测”取代传统需求文档,打造更可靠的AI产品。

AI产品经理的进化:如何用评测体系让AI真正可用

本文基于Aman Khan在AI Engineer World Fair的现场演讲,深度解读AI产品经理(AIPM)在推动AI应用落地时面临的挑战、独特方法论和真实案例。你将看到从自驾车到生成式AI的评测演变,以及如何用“评测”取代传统需求文档,打造更可靠的AI产品。

AI产品经理的角色变迁:从自驾车到自写代码

在AI行业高速发展的今天,产品经理的角色正在发生根本性变化。Aman Khan的职业轨迹就是一个缩影:他曾在Cruz负责自驾车的评测系统,后来转战Spotify,参与推荐系统和embedding技术的落地,如Discover Weekly和搜索体验优化。如今在Arise,他带领团队服务Uber、Instacart、Reddit等前沿科技公司,专注于AI应用的评测和可观测性。Aman坦言:“即使我在评测公司工作,也经历了从技术PM到AIPM的信心低谷。”他强调,AI产品经理不仅要懂技术,更要能用评测体系把复杂的AI系统变成可控、可交付的产品。这个转变之所以重要,是因为AI模型(尤其是大语言模型LLM)高度不确定,传统的需求文档和软件测试方法已无法满足实际需求。

评测体系:AI产品经理的“新需求文档”

Aman提出了一个核心观点:“评测(eval)正在成为AI创业公司的护城河。”他引用OpenAI和Anthropic高管的原话:“我们的模型会产生幻觉,写好评测至关重要。”评测类似于软件测试,但AI系统是非确定性的——同样的输入可能得到不同结果,甚至被“说服”输出错误答案。Aman用自驾车的故事类比:早期自驾车连直线都难以行驶,团队不得不不断收集“左转遇到行人”这类极端场景的数据,反复迭代评测体系,最终才能安全上路。对于AI Agent系统,评测不仅仅是打分,更是对系统各个环节(如工具调用、数据检索、生成结果)进行分解和追踪。Aman建议PM们:“把评测当作新的需求文档,直接告诉工程师‘这是我们的评测数据集和验收标准’,而不是一份模糊的PRD。”

现场案例:用多Agent系统打造AI旅行规划器

为了让评测方法论落地,Aman在现场演示了一个AI旅行规划器的原型。用户输入目的地、预算、兴趣等信息,系统由多个Agent协作生成详细行程。比如预算Agent负责核算花费,体验Agent检索本地活动,研究Agent补充背景信息,最终由行程Agent汇总输出。Aman幽默地说:“Vibe coding很爽,但你不能靠感觉把AI代码直接上线。”他强调,只有用数据驱动的评测(Thrive coding),才能让团队对AI输出有信心。演示中,他用Arise和Phoenix工具追踪Agent的输入输出,展示了“trace”和“span”的可视化——每个Agent的工作流程、调用链路一目了然。更进一步,Aman在“prompt playground”里迭代提示词(prompt),比如要求输出不超过500字符、必须包含优惠信息等,然后用AB测试比较不同版本的效果。

评测的实践细节:人类标注与LLM判官的博弈

Aman详细讲解了如何构建和迭代评测体系。首先,团队会用真实或合成数据集(如15个旅行行程)进行评测。评测可以是人工标注,也可以用LLM作为“判官”自动打标签。例如,他设计了一个“友好度”评测,让LLM判断输出文本是“友好”还是“机械”。但他坦言:“LLM判官经常和人类标注不一致,你需要对评测再做评测。”为此,Arise平台支持将人类标注和LLM判官结果进行比对,发现不一致时反复优化评测prompt,甚至用Copilot自动生成更严格的评测模板。Aman鼓励PM亲自体验评测的痛点:“只有自己写过评测,才能知道面试AIPM或AI工程师该问什么。”他还分享了团队如何持续采样生产数据,发现“难例”(hard examples),不断扩充和迭代评测数据集,确保系统在实际场景下也能稳健运行。

开放性与可扩展性:评测工具的未来趋势

Aman强调,评测工具必须支持多种模型和灵活扩展。Arise不仅支持OpenAI、Azure、Google等主流API,还允许用户自定义BERT或Alberta等模型作为评测判官。对于复杂的Agent系统,平台即将支持“prompt链式评测”,让团队能分阶段分析每个环节的影响。面对观众关于评测数量和质量的疑问,Aman用自驾车的故事再次说明:“你永远不知道下一个难题是什么,只有不断迭代,团队觉得‘够好了’才能上线。”他还预告了即将上线的生产数据自动采样和“难例”识别功能,帮助团队动态维护“黄金评测集”。

总结

Aman Khan的演讲不仅展示了AI产品经理在技术变革中的新定位,更用真实案例和方法论揭示了评测体系在AI产品落地中的核心作用。无论你是PM还是工程师,只有亲自参与评测、不断迭代数据和方法,才能让AI系统真正可用、可控。评测不再是附属流程,而是AI产品开发的“新需求文档”。对于想在AI时代脱颖而出的团队,这是一条值得深思和践行的路径。


关键词: AI产品经理, 评测体系, AI Agent, 幻觉, 提示工程, 人类标注, AB测试, 自驾车, Arise, Phoenix

事实核查备注: 关键事实:
- 演讲者:Aman Khan,Arise公司AI产品经理,曾任Cruz自驾车评测PM、Spotify推荐系统PM
- 主要客户:Uber、Instacart、Reddit、Duolingo、Spotify
- 重要产品/工具:Arise、Phoenix(开源)、Cursor、LangChain、ChatGPT、Claude、GitHub Copilot、Azure OpenAI、o1-mini、o1-preview
- 关键技术名词:评测(eval)、幻觉(hallucination)、Agent系统、prompt playground、trace、span、AB测试、hard example、LLM as judge
- 重要公司:OpenAI、Anthropic、Google、Microsoft
- 重要原话:
1. “评测正在成为AI创业公司的护城河。”
2. “把评测当作新的需求文档,直接告诉工程师‘这是我们的评测数据集和验收标准’。”
3. “Vibe coding很爽,但你不能靠感觉把AI代码直接上线。”
4. “只有自己写过评测,才能知道面试AIPM或AI工程师该问什么。”
5. “你永远不知道下一个难题是什么,只有不断迭代,团队觉得‘够好了’才能上线。”