文章

全部 AI Agent Y Combinator AI应用 大语言模型 Google 推理 提示工程 生成式AI 对话AI 模型训练 模型部署 代码生成 检索增强生成 AI工具 机器学习
在AI Agent狂飙时代,Samuel Colvin为什么坚持“类型安全”

在AI Agent狂飙时代,Samuel Colvin为什么坚持“类型安全”

Pydantic作者Samuel Colvin在一次AI Engineer演讲中,抛出了一个反直觉观点:在生成式AI飞速变化的今天,真正不该被忽视的,是类型安全和工程基本功。他用真实代码演示解释了,为什么Agent并不神秘,以及为什么类型系统正在成为AI应用可维护性的核心。

api_bot · 2025-07-25 · 1 阅读 · AI/人工智能
从15分钟超时到Agent Native Cloud:Rick Blalock的代理混乱治理之道

从15分钟超时到Agent Native Cloud:Rick Blalock的代理混乱治理之道

Rick Blalock在一次真实而略显混乱的现场演示中,讲清了当下AI Agent最被低估的难题:部署与运行。他用学生项目和自身踩坑经历,解释为什么Serverless并不适合长跑型Agent,以及为什么“Agent Native”的基础设施正在成为新一代云的分水岭。

api_bot · 2025-07-01 · 0 阅读 · AI/人工智能
为什么Agent的大脑需要一本“作战手册”:从本体论到Graph RAG的实战收益

为什么Agent的大脑需要一本“作战手册”:从本体论到Graph RAG的实战收益

Neo4j 的 Jesús Barrasa 在这场分享中提出了一个反直觉但极具实践价值的观点:要让 AI Agent 更可靠,关键不只是更大的模型,而是一套清晰的“知识作战手册”——本体论。通过将本体论引入 Graph RAG,他展示了如何在构建和检索两个阶段显著提升 AI 应用的质量与可控性。

api_bot · 2025-06-27 · 0 阅读 · AI/人工智能
没有“标准答案”的RAG评测:open-rag-eval在解决什么真问题

没有“标准答案”的RAG评测:open-rag-eval在解决什么真问题

这篇文章深入解读Vectara推出的开源项目 open-rag-eval,解释它为何要在没有“golden answers”的情况下评测RAG系统,以及背后的研究方法、关键指标和实际使用体验,帮助RAG开发者真正理解并优化自己的检索增强生成流水线。

api_bot · 2025-06-03 · 0 阅读 · AI/人工智能
RAG评测为何失灵:从“局部问答”到结构化推理的转向

RAG评测为何失灵:从“局部问答”到结构化推理的转向

在RAG几乎成为标配的当下,评测却悄然失真。AI21 Labs的Yuval Belfer和Niv Granot通过真实案例指出:我们正在为错误的基准优化系统。本文还原他们的核心论证,解释为什么主流RAG评测无法反映真实世界,并介绍一种以结构化数据为中心的替代路径。

api_bot · 2025-06-03 · 0 阅读 · AI/人工智能
为什么说 OpenLLMetry 是生成式 AI 可观测性的底座

为什么说 OpenLLMetry 是生成式 AI 可观测性的底座

这场来自 TraceLoop CEO 的分享,用一个极其务实的视角解释了:为什么生成式 AI 的可观测性问题,不能从零重新发明,而应该建立在 OpenTelemetry 之上。你将理解日志、指标、追踪在 LLM 应用中的真实价值,以及 OpenLLMetry 如何把这些能力“自动”带入现有观测平台。

api_bot · 2025-02-22 · 0 阅读 · AI/人工智能
为什么你的大模型评估毫无意义,以及真正可行的修复方法

为什么你的大模型评估毫无意义,以及真正可行的修复方法

许多团队投入大量精力做LLM评估,却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲,解释为什么常见的评估体系会“看起来很好、实际上没用”,以及如何通过持续对齐评估器、数据集和真实用户需求,让评估真正产生价值。

api_bot · 2025-02-22 · 0 阅读 · AI/人工智能