一个AI Agent如何自己剪视频：从痛点到架构的真实路径

AI PM 编辑部 · 2025年02月22日 · 21 阅读 · AI/人工智能

正在加载视频...

视频章节

这支视频展示了一个真正投入生产的AI视频剪辑Agent是如何被构建出来的。从最初被FFmpeg限制住的真实需求，到选择可被LLM“写代码”的视频引擎，再到带视觉反馈的Agent架构，这是一条非常工程化、也极具启发性的路线。

一个AI Agent如何自己剪视频：从痛点到架构的真实路径

这支视频展示了一个真正投入生产的AI视频剪辑Agent是如何被构建出来的。从最初被FFmpeg限制住的真实需求，到选择可被LLM“写代码”的视频引擎，再到带视觉反馈的Agent架构，这是一条非常工程化、也极具启发性的路线。

为什么“让AI剪视频”不是一句空话

这段分享并不是从一个炫技式的Demo开始，而是一个很现实的业务需求。演讲者开门见山地说，他们需要“some automatic tool to edit videos for reskill”，也就是为一个个性化学习平台自动生成和剪辑视频内容。这一点很重要：这是一个高频、刚需、但人工成本极高的场景。

一开始，他们尝试用FFmpeg解决问题，但很快撞上了天花板。FFmpeg功能强大，却极不直观，复杂剪辑往往意味着难以维护的命令拼接。随后他们评估了Remotion，这个基于React的视频生成方案在表达能力上更友好，但“it did unreliable service side rendering”，服务端渲染的稳定性成了硬伤。

真正的转折点来自一次人与人的连接。他们接触到了Diffusion Studio的Core库，不仅喜欢它的API设计，还直接“met with the author of the library and decided to collaborate”。这是视频中第一个非常宝贵的故事：一个AI Agent项目，并不是从模型能力突破开始，而是从工具选择和工程协作开始的。

这也奠定了全文的基调：所谓“AI自动剪辑”，核心不是魔法，而是能否找到一个让模型真正发挥优势的系统边界。

为什么“让LLM写代码”是关键设计决策

在技术层面，这个Agent最重要的洞见之一，是对“代码”的重新定位。Core库本身提供的是一个基于JavaScript/TypeScript的程序化视频合成接口，能够完成复杂的时间轴、图层和动画组合。

演讲者明确指出：“meaning we can use LLM to generate code to run this”。但他们并没有止步于此，而是更进一步——“let our LLM write its own action in code”。原因非常直接，也非常工程师式：“code is the best possible way to express actions performed by a computer”。

这不是一句口号，而是一个与当前Agent设计趋势高度一致的判断。他们引用多篇研究结论，指出LLM以代码形式进行工具调用，“is much better than in JSON”。这里的隐含逻辑是：代码本身具备结构、状态和可组合性，天然适合表达复杂行为，而JSON更多只是参数容器。

这也解释了为什么这个视频剪辑Agent并不是一个简单的Prompt-to-Video系统，而是一个会生成、执行、再评估自己代码的闭环系统。这种设计，直接决定了它能否处理真实复杂的视频编辑任务。

一个真正跑起来的AI视频剪辑Agent架构

在架构展示部分，视频给出了相当具体的实现细节。整个Agent会先通过Playwright启动一个浏览器会话，并连接到一个名为Operator UI的Web应用。这并不是给人类用的编辑器，而是“video editing UI designed specifically for AI agents”。

视频渲染直接在浏览器中完成，依赖WebCodecs API，同时通过Chromium DevTools Protocol，在Python和浏览器之间来回传输文件。这种设计避免了传统“渲染后端”的复杂部署，也让Agent的操作环境更加统一。

在决策层面，Agent有三种核心工具：Video Editing Tool、Doc Search Tool和Visual Feedback Tool。流程是：先根据用户Prompt生成并执行编辑代码；如果需要更多上下文，就用文档搜索工具补充信息；每执行一步，就对当前视频组合进行采样（目前是每秒一帧）。

最有意思的是视觉反馈机制。演讲者把它类比为“generator and discriminator like in famous GAN architecture”。当Visual Feedback Tool给出“green light”后，Agent才会进入最终渲染阶段。这意味着，视频质量不是一次性生成，而是经过机器视觉自检的。

从lm.txt到GPU浏览器：为Agent铺好路

在分享的后半段，演讲者提到了一些看似细节、但极具前瞻性的设计。比如他们发布了lm.txt，“essentially robots.txt but for agents”。这是一个用来告诉Agent“这里你该怎么用”的约定机制，配合模板化Prompt，可以显著降低Agent操作复杂系统的难度。

在部署层面，这个Agent既可以使用本地浏览器，也可以通过WebSocket连接到远程浏览器会话。每个Agent都有独立的浏览器实例，并且是GPU加速的，背后还有负载均衡。这说明他们从一开始就把并发和规模化运行纳入了设计考量。

目前Agent的首个实现版本是Python，但TypeScript版本已经在路上。演讲者用一句玩笑式的金句收尾：“any applications that can be written in TypeScript will be written in TypeScript”。这既是调侃，也透露出他们对前端化、浏览器化Agent形态的长期判断。

整套系统最终以Diffusion Studio和rskill的合作形式发布，强调的是生态协作，而不是单点突破。

总结

这支视频真正有价值的地方，不在于“AI已经可以剪视频了”，而在于它展示了一条可复用的方法论：从真实业务痛点出发，选择LLM最擅长的表达形式（代码），再为Agent设计一个能自我校验的执行环境。对所有想做复杂Agent系统的人来说，这比任何炫目的Demo都更值得反复观看。

关键词： AI Agent，视频剪辑，代码生成，大语言模型， GPU

事实核查备注：视频来源：AI Engineer，标题“This video was edited with AI agent. But how？”；关键技术：FFmpeg、Remotion、Diffusion Studio Core、Playwright、WebCodecs API、Chromium DevTools Protocol；架构要点：三种工具（Video Editing Tool、Doc Search Tool、Visual Feedback Tool），视觉反馈类比GAN；配置文件：lm.txt；实现语言：Python，TypeScript版本进行中。

返回文章列表