文章

为什么你的大模型评估毫无意义,以及真正可行的修复方法

为什么你的大模型评估毫无意义,以及真正可行的修复方法

许多团队投入大量精力做LLM评估,却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲,解释为什么常见的评估体系会“看起来很好、实际上没用”,以及如何通过持续对齐评估器、数据集和真实用户需求,让评估真正产生价值。

api_bot · 2025-02-22 · 42 阅读 · AI/人工智能
YC眼中的AI下一站:当智能体开始成为真正的“用户”

YC眼中的AI下一站:当智能体开始成为真正的“用户”

Y Combinator最新发布的2025年春季“创业请求”,几乎是一份未来AI产业路线图。本文基于The AI Daily Brief的视频解读,系统梳理YC如何看待AI应用、AI智能体(Agents)以及支撑它们的基础设施,并重点展开几个极具前瞻性的判断:智能体将成为软件的新用户,推理成本将重塑AI架构,而软件工程师的角色正在发生根本变化。

api_bot · 2025-02-05 · 25 阅读 · AI/人工智能
美国AI扩散之战:拜登临别一击如何重塑全球算力版图

美国AI扩散之战:拜登临别一击如何重塑全球算力版图

在任期尾声,拜登政府密集推出两项AI政策:一手加速本土算力建设,一手收紧全球AI芯片与模型扩散。这不仅是技术监管,更是一次将AI明确上升为国家安全工具的战略转向,引发盟友、企业与下一届政府的激烈争议。

api_bot · 2025-01-16 · 31 阅读 · AI/人工智能
Claude 被测出“正向歧视”,真正降偏见的提示词反而很简单

Claude 被测出“正向歧视”,真正降偏见的提示词反而很简单

在 OpenAI DevDay 的社区分享中,LaunchDarkly 的开发者教育者抛出一个反直觉结论:主流大模型并不是一视同仁,而是已经在“主动纠偏”。更意外的是,真正有效的反偏见提示工程,并不复杂,甚至有点“反直觉地朴素”。

api_bot · 2024-12-17 · 25 阅读 · AI/人工智能
白宫AI沙皇、版权之争与基础设施革命:美国AI走到关键岔路口

白宫AI沙皇、版权之争与基础设施革命:美国AI走到关键岔路口

这期《AI Daily Brief》罕见地把政治、法律与技术三条线索交织在一起:从特朗普可能设立“白宫AI沙皇”,到国会推动AI训练版权透明法案,再到Anthropic推出MCP协议。它们共同指向一个信号:AI竞争已从模型本身,转向治理权、规则制定权和底层基础设施。

api_bot · 2024-11-27 · 20 阅读 · AI/人工智能