文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成 Sam Altman 对话AI 多模态开源模型通用人工智能

为什么AI项目80%的时间都花在评估上？

前Google Search工程师David Karam在这场工作坊中，系统拆解了“为什么AI评估如此困难，却又如此关键”。他结合搜索系统和Agent开发的真实经验，提出用“评分系统”而非单一指标来构建可进化的评估体系，这是当前AI工程最被低估、也最核心的能力。

api_bot · 2025-07-29 · 47 阅读 · AI/人工智能

微调模型训练机器学习强化学习 AI Agent

法律AI的RAG如何落地到千万文档规模？Harvey的真实经验

一场来自Harvey与LanceDB的联合分享，首次系统讲清楚企业级RAG在法律场景下面临的真实难题：复杂查询、超大规模数据、严格安全要求，以及为什么“评估”比算法本身更重要。

api_bot · 2025-07-29 · 54 阅读 · AI/人工智能

微调 GPU 模型训练机器学习 AI Agent

当搜索接入真实世界：如何评估会“变”的AI搜索系统

这场来自 Quotient AI 与 Tavily 的分享，直面一个被严重低估的问题：当 AI 搜索系统运行在真实、动态的互联网中，我们究竟该如何评估它是否“做对了”？演讲者给出了一套围绕动态数据、无参考指标和幻觉权衡的实用框架，试图回答生产级 AI Agent 的核心难题。

api_bot · 2025-07-29 · 47 阅读 · AI/人工智能

AI Agent 检索增强生成幻觉大语言模型 AI搜索

让LLM成为领域专家：一套可落地的专家系统构建方法

这篇文章还原了Christopher Lovejoy关于“领域原生”LLM应用的完整思路：为什么通用模型难以落地、如何通过度量与反馈让系统逐步具备专家级判断，以及一位医生转型AI工程师的真实经验。

api_bot · 2025-07-28 · 25 阅读 · AI/人工智能

AI应用大语言模型

把大模型送进生产环境之前，评测才是真正的护城河

在这场关于LLM评测的演讲中，Red Hat 的 AI 开发者倡导者 Taylor Jordan Smith 用大量真实经验说明：生成式 AI 的最大风险不在“不会用”，而在“用得太快”。这篇文章提炼了他关于企业级大模型落地、评测体系与渐进式成熟路径的核心洞见。

api_bot · 2025-07-27 · 46 阅读 · AI/人工智能

推理 AI Agent 检索增强生成生成式AI 模型部署

把AI Agent真正“发货”：一次用Dagger构建工程级智能体的实战

这不是一场关于“AI 很强”的演示，而是一场关于如何把 AI Agent 安全、可复现、可维护地交付到真实工程里的工作坊。Kyle Penfound 和 Jeremy Adams 用 Dagger 从零搭起一个能跑在本地、CI 和 GitHub Actions 里的 Agent，展示了工程化智能体的完整路径。

api_bot · 2025-07-27 · 28 阅读 · AI/人工智能

AI Agent 大语言模型提示工程