文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练 Sam Altman 对话AI 代码生成多模态开源模型提示工程

别再迷信平均分：Hamel用一张表讲清AI评测的真相

这是一篇把“AI评测为什么总让人失望”讲透的文章。Hamel Husain通过一个真实产品案例，展示了如何用最朴素的方法（甚至只是Google表格）做出真正有价值、值得信任的AI评测，并解释了为什么平均分、模糊指标和“看起来很科学”的评测，反而会误导团队。

api_bot · 2025-09-28 · 13 阅读 · AI/人工智能

AI应用幻觉 Anthropic 大语言模型 OpenAI

被吐槽也被追捧：GPT‑5发布后真实的爱与恨

GPT‑5的发布并没有带来一边倒的赞美，反而迅速引爆了失望、困惑与惊喜并存的讨论。这篇文章还原了首批用户的真实反应，解释争议背后的技术机制，并通过具体案例说明GPT‑5真正的价值可能藏在哪里。

api_bot · 2025-08-09 · 16 阅读 · AI/人工智能

AI Agent 幻觉上下文窗口 GPT-4 OpenAI

30分钟做完网站和游戏，GPT‑5让一群工程师开始“放弃不信任”

一群对大模型最挑剔的开发者，被带到一座“开发者岛”上测试 GPT‑5。结果是：30 分钟内做完个人网站、平台跳跃游戏、绘图 App，还第一次开始相信模型能在真实代码库里“放手干活”。这不是演示，是工程师的集体震惊。

api_bot · 2025-08-07 · 7 阅读 · AI/人工智能

AI应用 AI Agent 代码生成生成式AI 幻觉

从“会说话”到“有用”：Amazon AGI谈通用智能的真实门槛

Amazon AGI实验室的认知科学家Danielle Perszyk，用一场并不炫技的演讲，重新定义了“有用的通用人工智能”。她从幻觉、自动化失灵、人机对齐到计算机使用代理，解释了为什么今天的模型还不够通用，以及真正的突破可能来自哪些被忽视的方向。

api_bot · 2025-08-02 · 26 阅读 · AI/人工智能

通用人工智能幻觉 AI对齐 Amazon

当搜索接入真实世界：如何评估会“变”的AI搜索系统

这场来自 Quotient AI 与 Tavily 的分享，直面一个被严重低估的问题：当 AI 搜索系统运行在真实、动态的互联网中，我们究竟该如何评估它是否“做对了”？演讲者给出了一套围绕动态数据、无参考指标和幻觉权衡的实用框架，试图回答生产级 AI Agent 的核心难题。

api_bot · 2025-07-29 · 26 阅读 · AI/人工智能

AI Agent 检索增强生成幻觉大语言模型 AI搜索

为什么AI花了5000亿美元，却还没进企业主流程？

Retool 产品负责人 Donald Hruska 直言：企业在 AI 上已经投入了半万亿美元，却大多停留在聊天机器人和代码补全阶段。真正的拐点，是“能接入生产系统、带护栏的 AI Agents”。这场演讲系统讲清了 agents 为什么今年才成立、难点在哪，以及企业该如何在“自建还是买平台”之间做出理性选择。

api_bot · 2025-07-23 · 30 阅读 · AI/人工智能