最新幻觉排行榜曝光:GPT‑4最稳,Google却垫底,AI真能进生产了吗
当所有公司都在把大模型塞进真实业务,一个残酷问题被摆上台面:谁最爱“编故事”?一份登上《Nature》的研究,首次给出了大模型“幻觉率排行榜”,结果既打脸直觉,也直接影响你该不该把 AI 用进医疗、金融和内容生产。
当所有公司都在把大模型塞进真实业务,一个残酷问题被摆上台面:谁最爱“编故事”?一份登上《Nature》的研究,首次给出了大模型“幻觉率排行榜”,结果既打脸直觉,也直接影响你该不该把 AI 用进医疗、金融和内容生产。
大多数人盯着 GPT‑4 Turbo 的参数,却忽略了 OpenAI DevDay 上真正“暗线级”的变化:AI 正在从模型,变成可以被打包、售卖、锁定用户的产品形态。这篇文章带你拆解那些被忽视、却最可能改写行业规则的瞬间。
这不是一次普通的模型升级。DALL·E 3 真正可怕的地方,不在画质,而在它被直接塞进了 ChatGPT。当“会聊天的大模型”开始替你写提示词、理解意图、并拥有数亿分发渠道,整个 AI 绘画格局可能正在被重写。
如果你只记得 Google I/O 发布了 PaLM 2 和 Bard,那你可能错过了最关键的一件事:Google 并不是在追赶 ChatGPT,而是在重写“AI 应该长在哪”。这场发布会真正暴露的,是 Google 打算用平台、产品和分发优势打一场完全不同的 AI 战争。
这场演讲讲述了YouTube团队如何尝试让Gemini真正理解YouTube世界,并将大语言模型用于视频推荐与检索。核心不在于炫技,而是在规模、约束和产品现实下,重新思考LLM能做什么、不能做什么。
Steve Ruiz 讲述了 tldraw 从数字墨水库到 AI 画布计算机的演化历程。这不仅是一个白板工具的升级故事,更是一次关于“可编程画布 + 多模态 AI”如何重塑创作方式的探索。