她让AI学会“情绪”：颜色和山的高度，正在泄露你的感受

AI PM 编辑部 · 2020年07月02日 · 3 阅读 · AI/人工智能

正在加载视频...

视频章节

如果我给你一张模糊的风景图，你能说出它在“害怕”还是“快乐”吗？OpenAI Scholars Demo Day 上，Hannah Davis 用一个看似简单却极具争议的实验，证明情绪并不只是主观感受，而是能被模型学出来、甚至“生成”出来的视觉结构。

她让AI学会“情绪”：颜色和山的高度，正在泄露你的感受

如果我给你一张模糊的风景图，你能说出它在“害怕”还是“快乐”吗？OpenAI Scholars Demo Day 上，Hannah Davis 用一个看似简单却极具争议的实验，证明情绪并不只是主观感受，而是能被模型学出来、甚至“生成”出来的视觉结构。

最反直觉的一点：情绪不是抽象概念，而是视觉模式

在这个项目里，最让人停不下来的不是模型，而是数据。Hannah 先做了一件“笨功夫”：她收集了七类风景图，用 CrowdFlower 让人类为它们打上八种情绪标签——愤怒、期待、厌恶、恐惧、快乐、悲伤、惊讶和信任。结果非常反直觉：情绪并没有混成一团，而是在视觉上出现了清晰的聚类。

厌恶，集中在棕色和绿色，常常伴随水域、沼泽；恐惧，一部分是阴暗森林，另一部分却是“概念性恐惧”——辽阔而空旷的深海；惊讶，则充满高饱和、亮色调。也就是说，人类在给情绪打标签时，并不是凭空判断，而是在无意识中依赖了一套稳定的视觉线索。

这一步很关键：在生成模型之前，她已经证明了一件事——情绪并非完全主观，它在数据中留下了可学习的痕迹。

GAN 崩了之后，她换了思路，情绪反而“站住了”

真正的挑战出现在生成阶段。Hannah 的第一个尝试是 GAN，但很快就失败了：训练不稳定，输出失控。这对做过生成模型的人来说并不陌生。关键转折点在于，她没有死磕 GAN，而是转向了基于 Emily Denton 2015 年论文的多尺度变分自编码器（multi-scale VAE）。

结果并不“惊艳”，但非常耐看：64×64 的生成图像，分情绪排列后，差异一眼可见。愤怒偏暗、期待对比强烈、厌恶仍旧是大量棕绿、恐惧阴郁、快乐更明亮、悲伤被压低饱和度、惊讶出现不合常理的色块，而“信任”则显得明亮又平静。

有意思的是，当有人问“单张图准不准”时，她的回答很诚实：个别样本会失手，但当你一次看十张，情绪就‘对了’。这其实点破了生成情绪的本质——它不是在复制具体场景，而是在复现统计意义上的情绪分布。

不只是颜色：构图、对比度，甚至“山有多高”

当讨论从结果转向“模型到底学到了什么”，项目真正变得有深度。颜色确实是最显眼的信号，但并不是唯一的。Hannah 观察到，“期待”情绪里有明显更强的明暗对比，可能来自类似镜头炫光或强阴影的效果。

更微妙的是构图变化。在山地生成中，“恐惧”对应的山看起来更高，视角像是在仰视；而其他情绪则更平缓。这种差异并没有被显式标注，却被模型自动捕捉了。

数据构建上，她也刻意限制了标注人群为英语使用者，并集中在美国城市。这并不是偷懒，而是为下一步研究埋伏笔：不同文化、不同地理背景的人，会不会对同一风景产生不同情绪？如果答案是肯定的，那么‘情绪生成’本身就是一个带有强烈文化偏置的问题。

总结

这个项目的价值，并不在于生成了一些好看的小图，而在于它揭示了一件容易被忽视的事实：我们以为模糊、主观的“情绪”，其实在数据层面是可对齐、可建模的。对 AI 从业者来说，这意味着情感并非只能靠文本或生理信号建模，视觉本身就携带了丰富而稳定的情绪线索。下一次你在做生成或多模态项目时，或许可以反问一句：模型学到的，究竟是语义，还是人类无意识中反复使用的感受模式？

关键词：情绪生成，生成模型， VAE，情绪数据集，视觉情绪

事实核查备注：核查事项：1）项目作者 Hannah Davis 的身份与演讲场合是否为 OpenAI Scholars Demo Day 2018；2）所用方法是否为基于 Emily Denton 2015 年论文的多尺度 VAE；3）数据标注平台为 CrowdFlower；4）生成分辨率 64×64 与 32×32 是否准确；5）视频发布时间 2020-07-02。

返回文章列表