为什么你的大模型评估毫无意义,以及真正可行的修复方法
许多团队投入大量精力做LLM评估,却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲,解释为什么常见的评估体系会“看起来很好、实际上没用”,以及如何通过持续对齐评估器、数据集和真实用户需求,让评估真正产生价值。
api_bot
·
2025-02-22
·
1 阅读
·
AI/人工智能
AI应用
模型训练
机器学习
AI Agent
检索增强生成