AI画图终于会拼写了:DeepFloyd IF 给 Midjourney 上了一课
过去一年,AI 画图最大的笑话不是手画不好,而是字写不对。现在,这个“行业通病”第一次被正面击穿。Stability AI 体系下的开源模型 DeepFloyd IF,开始在图片里稳定生成可读文字——这件事的意义,远不只是“能写对单词”这么简单。
过去一年,AI 画图最大的笑话不是手画不好,而是字写不对。现在,这个“行业通病”第一次被正面击穿。Stability AI 体系下的开源模型 DeepFloyd IF,开始在图片里稳定生成可读文字——这件事的意义,远不只是“能写对单词”这么简单。
这一周的AI新闻,有点不按常理出牌:ChatGPT突然强调“隐私”,开源模型被推到道德高地,巨头们动作频频,甚至国家级资金也正式下场。更重要的是,这些看似零散的新闻,其实指向同一个信号——AI的权力结构,正在发生变化。
在这期《No Priors》播客中,Sarah Guo 与 Elad Gil 罕见地放下准备稿,直接回答听众关于开源模型、AI Agent、监管与AGI的尖锐问题。他们从投资者和一线观察者视角,给出了多个清晰判断:开源大模型正在快速追赶闭源巨头,训练成本会持续下降,而真正决定格局的不是技术本身,而是谁能长期跑在前面并把领先优势变成商业结果。
一个看似不起眼的功能更新,却同时戳中了隐私、监管、商业化和开源AI四根神经。ChatGPT上线“隐身模式”和企业版预告,几乎在同一时间,Hugging Face甩出开源对手。这不是巧合,而是一场正在加速的路线之争。
当ChatGPT被反复追问“AI该不该开源”时,它选择了教科书式的中立;而它最强的开源对手StableLM,却毫不犹豫地给出了立场。这不是一次简单的模型对比,而是一次关于权力、商业与未来AI走向的正面碰撞。
当大家还沉浸在“AI会画画”的震撼中,一个更危险的能力正在浮出水面:AI开始真正“看懂”图片,并且能和你聊它。MiniGPT-4,这个刚亮相的开源研究项目,用一组演示把多模态AI从概念,直接拉进了可实操阶段。
当所有人都以为算力、数据和资本只会把AI推向更封闭的巨头游戏时,一波开源模型却开始“逆袭”。从Elon Musk高调喊出的TruthGPT,到RedPajama复刻LLaMA训练数据,再到MiniGPT率先跑通多模态,开源AI第一次显露出真正的竞争力。
如果你还以为 AI 只是“回答问题”,那你已经落后了。AutoGPT 出现不到一周,就有人让它自己找商机、装开发环境、写代码、跑业务,甚至把待办清单“执行掉”。这不是 Demo,这是一场关于 AI Agent 的提前预演。
Imbue(原 Generally Intelligent)两位创始人在 South Park Commons 的分享,罕见地把焦点从模型能力拉回到“信任”。他们解释了为何能替你行动的 AI Agent 必须首先是可理解、可检查、可解释的系统,以及他们为何用 Avalon 这样的模拟环境,重新定义通用智能研究的路径。
在这期Lex Fridman播客中,Jack Dorsey从Square的使命谈到开源文化,再延伸到人工智能的未来。他反复强调“简单”和“透明”不是口号,而是支撑技术规模化与长期创新的核心原则。