文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成对话AI Sam Altman 多模态开源模型提示工程

没有“标准答案”的RAG评测：open-rag-eval在解决什么真问题

这篇文章深入解读Vectara推出的开源项目 open-rag-eval，解释它为何要在没有“golden answers”的情况下评测RAG系统，以及背后的研究方法、关键指标和实际使用体验，帮助RAG开发者真正理解并优化自己的检索增强生成流水线。

api_bot · 2025-06-03 · 77 阅读 · AI/人工智能

开源模型检索增强生成幻觉大语言模型 LangChain

两周分析一万通销售电话：一个AI工程师的真实方法论

一次看似不可能的任务：两周内分析一万通销售电话。Charlie Guo 通过大语言模型、工程化系统设计和成本控制，把原本需要两年的人力工作，变成单人可完成的AI项目。这篇文章还原了其中最关键的技术决策、踩过的坑，以及对企业数据价值的深刻启示。

api_bot · 2025-06-03 · 60 阅读 · AI/人工智能

AI应用开源模型检索增强生成生成式AI 模型部署

AI基准测试为何失灵：一场被“赢麻了”的游戏

这篇文章还原了Darius Emrani对AI基准测试体系的犀利批判：为什么这些排行榜能左右数十亿美元，却越来越不可信；大厂常用的三种“赢法”是什么；以及为什么真正想做出好产品的团队，应该停止追逐榜单，转而构建属于自己的评估体系。

api_bot · 2025-06-03 · 73 阅读 · AI/人工智能

AI应用模型训练 AI Agent 模型部署 Claude

37次失败后，他们终于跑通了真正能落地的RAG技术栈

这是一次来自一线AI工程师的真实复盘：经历37次失败后，Jonathan Fernandes 总结出一套可在生产环境稳定运行的RAG技术栈。文章不仅讲清楚每一层该怎么选，更重要的是解释了为什么很多RAG项目会悄无声息地失败。

api_bot · 2025-06-03 · 102 阅读 · AI/人工智能

检索增强生成生成式AI 大语言模型 ChatGPT Embedding

浏览器代理现状：为什么“会点网页”比你想象的难

Jerry Wu 和 Wyatt Marshall 系统梳理了浏览器代理的真实能力边界：读网页已接近可用，写网页却仍是硬骨头。他们用一个5000任务的真实基准，揭示了性能、失败模式和基础设施为何才是决定性因素。

api_bot · 2025-06-03 · 66 阅读 · AI/人工智能

AI Agent 大语言模型 OpenAI 视觉语言模型

为什么真正的AI Agent离不开“规划”，而不只是更长的提示词

从Instruct GPT到GPT‑4.1，语言模型在“听话”这件事上并没有线性进步。AI21 Labs 的 Yuval Belfer 通过工程视角给出答案：问题不在模型，而在我们把所有复杂性都塞进了一个提示词。真正可靠的 AI Agent，需要规划与执行引擎。

api_bot · 2025-06-03 · 83 阅读 · AI/人工智能

推理 AI Agent 大语言模型提示工程 GPT-4

当AI开始理解你的饮食情绪：Alma的营养智能实验

这是一位AI工程师在真实创业过程中的反思：为什么营养记录如此困难，以及大语言模型如何被重塑为“营养陪伴者”。文章还原Alma八个月实践中的关键洞见、失败经验与方法论，展示AI Agent在健康领域落地的真实挑战。

api_bot · 2025-06-03 · 42 阅读 · AI/人工智能

AI应用 AI Agent 大语言模型

用评估驯服AI Agent：MCP能否让智能体网络稳定下来？

AI Agent 一旦组成网络就容易失控，这是行业的共同痛点。Fruit Signals CEO Ari Heljakka 在这场演讲中提出：真正的突破不在于更聪明的模型，而在于通过 MCP（Model Context Protocol）把“评估”嵌入 Agent 的行动回路，让它们学会自我纠错与稳定协作。

api_bot · 2025-06-03 · 42 阅读 · AI/人工智能

AI Agent 对话AI 大语言模型 Cursor