她让AI学会“情绪”:颜色和山的高度,正在泄露你的感受
正在加载视频...
视频章节
如果我给你一张模糊的风景图,你能说出它在“害怕”还是“快乐”吗?OpenAI Scholars Demo Day 上,Hannah Davis 用一个看似简单却极具争议的实验,证明情绪并不只是主观感受,而是能被模型学出来、甚至“生成”出来的视觉结构。
她让AI学会“情绪”:颜色和山的高度,正在泄露你的感受
如果我给你一张模糊的风景图,你能说出它在“害怕”还是“快乐”吗?OpenAI Scholars Demo Day 上,Hannah Davis 用一个看似简单却极具争议的实验,证明情绪并不只是主观感受,而是能被模型学出来、甚至“生成”出来的视觉结构。
最反直觉的一点:情绪不是抽象概念,而是视觉模式
在这个项目里,最让人停不下来的不是模型,而是数据。Hannah 先做了一件“笨功夫”:她收集了七类风景图,用 CrowdFlower 让人类为它们打上八种情绪标签——愤怒、期待、厌恶、恐惧、快乐、悲伤、惊讶和信任。结果非常反直觉:情绪并没有混成一团,而是在视觉上出现了清晰的聚类。
厌恶,集中在棕色和绿色,常常伴随水域、沼泽;恐惧,一部分是阴暗森林,另一部分却是“概念性恐惧”——辽阔而空旷的深海;惊讶,则充满高饱和、亮色调。也就是说,人类在给情绪打标签时,并不是凭空判断,而是在无意识中依赖了一套稳定的视觉线索。
这一步很关键:在生成模型之前,她已经证明了一件事——情绪并非完全主观,它在数据中留下了可学习的痕迹。
GAN 崩了之后,她换了思路,情绪反而“站住了”
真正的挑战出现在生成阶段。Hannah 的第一个尝试是 GAN,但很快就失败了:训练不稳定,输出失控。这对做过生成模型的人来说并不陌生。关键转折点在于,她没有死磕 GAN,而是转向了基于 Emily Denton 2015 年论文的多尺度变分自编码器(multi-scale VAE)。
结果并不“惊艳”,但非常耐看:64×64 的生成图像,分情绪排列后,差异一眼可见。愤怒偏暗、期待对比强烈、厌恶仍旧是大量棕绿、恐惧阴郁、快乐更明亮、悲伤被压低饱和度、惊讶出现不合常理的色块,而“信任”则显得明亮又平静。
有意思的是,当有人问“单张图准不准”时,她的回答很诚实:个别样本会失手,但当你一次看十张,情绪就‘对了’。这其实点破了生成情绪的本质——它不是在复制具体场景,而是在复现统计意义上的情绪分布。
不只是颜色:构图、对比度,甚至“山有多高”
当讨论从结果转向“模型到底学到了什么”,项目真正变得有深度。颜色确实是最显眼的信号,但并不是唯一的。Hannah 观察到,“期待”情绪里有明显更强的明暗对比,可能来自类似镜头炫光或强阴影的效果。
更微妙的是构图变化。在山地生成中,“恐惧”对应的山看起来更高,视角像是在仰视;而其他情绪则更平缓。这种差异并没有被显式标注,却被模型自动捕捉了。
数据构建上,她也刻意限制了标注人群为英语使用者,并集中在美国城市。这并不是偷懒,而是为下一步研究埋伏笔:不同文化、不同地理背景的人,会不会对同一风景产生不同情绪?如果答案是肯定的,那么‘情绪生成’本身就是一个带有强烈文化偏置的问题。
总结
这个项目的价值,并不在于生成了一些好看的小图,而在于它揭示了一件容易被忽视的事实:我们以为模糊、主观的“情绪”,其实在数据层面是可对齐、可建模的。对 AI 从业者来说,这意味着情感并非只能靠文本或生理信号建模,视觉本身就携带了丰富而稳定的情绪线索。下一次你在做生成或多模态项目时,或许可以反问一句:模型学到的,究竟是语义,还是人类无意识中反复使用的感受模式?
关键词: 情绪生成, 生成模型, VAE, 情绪数据集, 视觉情绪
事实核查备注: 核查事项:1)项目作者 Hannah Davis 的身份与演讲场合是否为 OpenAI Scholars Demo Day 2018;2)所用方法是否为基于 Emily Denton 2015 年论文的多尺度 VAE;3)数据标注平台为 CrowdFlower;4)生成分辨率 64×64 与 32×32 是否准确;5)视频发布时间 2020-07-02。