用600行原生JS拆解GPT：给Web开发者的LLM底层课

AI PM 编辑部 · 2025年07月13日 · 17 阅读 · AI/人工智能

正在加载视频...

视频章节

这是一场专为Web开发者准备的演讲：Ishan Anand用大约600行原生JavaScript，从零跑起一个GPT‑2级别的语言模型。文章还原他在现场的讲解路径，带你理解Token、Embedding、MLP和Language Head如何串起来，以及为什么ChatGPT并不“神秘”。

用600行原生JS拆解GPT：给Web开发者的LLM底层课

这是一场专为Web开发者准备的演讲：Ishan Anand用大约600行原生JavaScript，从零跑起一个GPT‑2级别的语言模型。文章还原他在现场的讲解路径，带你理解Token、Embedding、MLP和Language Head如何串起来，以及为什么ChatGPT并不“神秘”。

为什么要用原生JavaScript重写GPT？

这场演讲一开始就定下了基调：不是为了造一个更强的模型，而是为了“看清楚模型在干什么”。在上午9点的大会开场，Ishan Anand抛出一句很有记忆点的话——“GPT in 600 lines of vanilla JavaScript”。这不是炫技，而是一种方法论：当你能用最朴素的工具复现核心流程，很多被框架和API隐藏的细节就会暴露出来。

对Web开发者来说，这一点尤其重要。你可能每天都在调用ChatGPT，却很难把Prompt、Token、Embedding和概率联系成一个连续的计算过程。Ishan选择GPT‑2作为研究对象，正是因为它结构清晰、文档充分，复杂度又刚好能被完整展示。他反复强调，这样的实现“不是为了性能”，而是为了让模型从‘魔法’变成‘工程’。

演讲中有一个小插曲：他多次做“time check”，提醒大家进度稍微落后，但依然坚持把关键概念讲完整。这种取舍本身，也反映了他的判断——理解底层，比追新模型更有长期价值。

从Token开始：语言模型如何把世界拆成整数

真正的技术旅程，从Token开始。Ishan在讲到这一段时特意放慢了节奏，因为这是大多数误解的源头。Token并不是“单词”，而是模型词表中的离散单位。文本进入模型之前，必须先被切分、映射成整数序列。

他用GPT‑2的Tokenizer作为例子，解释了为什么有些看似完整的词会被拆开，又为什么会出现“collisions as tokens”这样的现象。对开发者来说，这意味着两件事：第一，输入的微小变化，可能导致完全不同的Token序列；第二，模型并不是在‘理解句子’，而是在处理一串数字。

在JavaScript实现中，这一步尤其直观。你能清楚看到字符串如何一步步变成数组，再进入后续计算。Ishan在现场演示加载GPT‑2权重时说过一句很朴素的话：“So this is what you get when you load up GPT2。”它没有渲染任何魔法，只是数据结构，但正是这些数据结构，支撑了后面所有看似智能的行为。

Embedding与位置编码：让模型知道‘谁在第几位’

如果说Token解决的是“是什么”，Embedding和位置编码解决的就是“在哪里”。在演讲的中段，Ishan转向Embedding时明确提醒观众：这里决定了模型是否具备顺序感。

Embedding可以理解为把离散的Token映射到连续向量空间，而Position Embedding则为这些向量注入位置信息。没有它们，模型看到的只是一堆无序向量。Ishan在现场切换不同输入，展示了位置变化如何导致输出不同，并直接指出：“you’ll see that’s different。”这种即时对比，比任何公式都直观。

对Web开发者而言，这一段的价值在于，它解释了为什么长文本、顺序颠倒、或截断输入，会明显影响模型表现。这不是模型‘情绪不稳定’，而是位置编码在发挥作用。通过JS代码逐行跑，你能清楚看到向量是如何被相加、再送入下一层的。

MLP与Language Head：预测下一个Token的那一刻

在模型的后半程，Ishan带大家进入多层感知机（MLP）和Language Head。这是从“表示”走向“预测”的关键一步。MLP负责对中间表示做非线性变换，而Language Head则把结果映射回词表大小的概率分布。

当他跑完整个前向过程，并得到“next predicted token”时，现场其实有一个很轻微但真实的情绪转折：原来生成文本的本质，就是在每一步做一次概率选择。Ishan随后强调，这一步并不复杂，复杂的是前面层层叠加后的表示。

在这一部分，他也顺带提到反向传播（back propagation）在训练阶段的角色，但刻意没有展开公式，而是点到为止。这种克制让内容始终围绕‘理解模型如何工作’，而不是‘如何从零训练一个大模型’。

GPT‑2 vs ChatGPT：助手是如何被“教”出来的

演讲的尾声，Ishan把话题从GPT‑2拉回大家最熟悉的ChatGPT。他明确区分了两者：GPT‑2只是一个语言模型，而ChatGPT是“teaching a helpful assistant”的结果。

这里的核心洞见在于，ChatGPT并不是结构上完全不同的模型，而是在基础语言模型之上，通过额外的数据和训练方式，学会了更符合人类期望的回答方式。Ishan用对比的方式，让听众意识到：当你理解了GPT‑2的工作原理，ChatGPT就“少了一层神秘感”。

在最后总结时，他对观众说，自己抛出了很多信息，但希望大家离开时能有一个感觉——“now it’s a little less like magic”。掌声响起，这句话也成为整场演讲最贴切的收尾。

总结

这场演讲最大的价值，不在于600行JavaScript本身，而在于一种学习路径：从最小可用实现出发，逐层理解LLM的真实运作方式。对Web开发者来说，一旦Token、Embedding和预测机制连成一条清晰的链条，你再去使用ChatGPT或其他模型时，就会多一分判断力，少一分迷信。

关键词： GPT-2， ChatGPT， Token， Embedding， JavaScript

事实核查备注：视频标题：How LLMs work for Web Devs： GPT in 600 lines of Vanilla JS；演讲者：Ishan Anand；模型：GPT-2；实现语言：原生JavaScript；核心概念：Token、Embedding、Position Embedding、MLP、Language Head；对比对象：ChatGPT 与 GPT-2

返回文章列表