文章

全部 AI应用 AI Agent 生成式AI 大语言模型 OpenAI Google ChatGPT AI安全模型训练代码生成对话AI Sam Altman 多模态开源模型提示工程

为什么你的大模型评估毫无意义，以及真正可行的修复方法

许多团队投入大量精力做LLM评估，却依然在生产环境频频翻车。本文基于AI Engineer的一场演讲，解释为什么常见的评估体系会“看起来很好、实际上没用”，以及如何通过持续对齐评估器、数据集和真实用户需求，让评估真正产生价值。

api_bot · 2025-02-22 · 68 阅读 · AI/人工智能

AI应用模型训练机器学习 AI Agent 检索增强生成

别再迷信提示工程：保险业如何用DSPy把LLM拉回工程正道

在这场来自AXA德国的真实分享中，Jeronim Morina用保险业的复杂场景，拆解了为什么“提示工程”正在失效，以及DSPy如何把大语言模型重新变成一个可优化、可度量、可工程化的系统。

api_bot · 2025-02-16 · 79 阅读 · AI/人工智能

微调 AI应用机器学习强化学习神经网络

Suno创始人谈AI音乐：我们要抢在“坏未来”之前

这次对话里，Suno CEO Mikey Shulman不仅解释了AI如何生成音乐，更直面一个尖锐问题：如果不主动设计“好未来”，AI音乐很可能走向对艺术家和人类体验都不友好的方向。本文带你理解Suno的技术逻辑、产品哲学，以及他们真正想改变的，不只是音乐制作门槛。

api_bot · 2025-01-26 · 59 阅读 · AI/人工智能

AI应用模型训练机器学习生成式AI 大语言模型

把图AI变成真金白银：Kumo如何把预测模型“塞进”数据仓库

在这期 Sequoia AI Ascent 的访谈中，Kumo AI 联合创始人兼工程负责人 Hema Raghavan 讲述了一个核心命题：为什么几乎所有企业天生都拥有“图”，却很少真正从图神经网络中获得 ROI。她分享了 Kumo 的产品哲学——让复杂的图学习对业务透明，同时又为资深数据科学家保留“掀开引擎盖”的自由。

api_bot · 2025-01-21 · 45 阅读 · AI/人工智能

机器学习神经网络幻觉大语言模型 Transformer

CES上的AI是泡沫吗？在“AI垃圾”背后看到真正的拐点

2025年的CES被AI全面占领，从冰箱、烤炉到医疗镜子与机器人手臂。有人痛批这是“AI垃圾大游行”，也有人认为这是技术拐点前的必要混乱。本文基于《AI Daily Brief》的一手观察，拆解哪些是噱头，哪些可能成为未来十年的基础设施。

api_bot · 2025-01-10 · 51 阅读 · AI/人工智能

AI应用 GPU 模型训练机器学习开源模型

从Spotify到Modal：一位ML工程师对AI基础设施的长期判断

Modal创始人兼CEO Erik Bernhardsson回顾了自己在Spotify搭建推荐系统的经历，以及这些经验如何塑造了Modal的产品哲学。他分享了对云AI、GPU池化、向量数据库和AI基础设施未来的冷静判断，为理解AI应用真正的瓶颈提供了一线从业者视角。

api_bot · 2025-01-09 · 69 阅读 · AI/人工智能

AI应用 GPU 机器学习向量数据库 Transformer

OpenAI o3发布：我们离AGI到底还有多远？

在OpenAI“12天Shipmas”的最后时刻，o3推理模型悄然登场，却引发了关于AGI的巨大争论。本文梳理o3在关键基准上的突破、ARC-AGI测试背后的意义，以及技术圈、开发者与经济学视角的激烈分歧，帮你判断：这是AGI的前夜，还是又一次被误读的飞跃。

api_bot · 2024-12-24 · 71 阅读 · AI/人工智能

Sam Altman 微调 AI应用模型训练机器学习

GPT-4o 在非洲青年中翻倍提分：一次反直觉的 AI 落地实验

在 OpenAI DevDay 的一个不起眼角落，Dimagi 分享了一个让很多 AI 从业者意外的结论：想把大模型用好在低资源语言上，最聪明的做法，可能不是“直接教模型说当地话”。他们用 GPT-4o mini 做机器翻译微调，把 Sheng 这种混合俚语的翻译 BLEU 分数从 22 拉到 65，成本却只要十分之一。

api_bot · 2024-12-17 · 80 阅读 · AI/人工智能