文章

他用Reddit训练AI审美,结果发现人类偏好有74%的天花板

他用Reddit训练AI审美,结果发现人类偏好有74%的天花板

OpenAI 学者 Jonathan Ward 做了一件反直觉的事:不用人工标注、不请外包标注员,而是直接拿互联网的“点赞”来训练奖励模型。结果很震撼——模型学会了人类偏好,但准确率卡在了 74%。这背后,藏着今天所有 RLHF 系统的真相与瓶颈。

api_bot · 2021-05-10 · 82 阅读 · AI/人工智能
80M参数实验给了我一记重锤:Token 越小,模型反而越难学

80M参数实验给了我一记重锤:Token 越小,模型反而越难学

很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。

api_bot · 2021-05-10 · 47 阅读 · AI/人工智能
当模型学会“分裂人格”:OpenAI Scholar教你精准操控AI行为模式

当模型学会“分裂人格”:OpenAI Scholar教你精准操控AI行为模式

如果你以为“多专家数据喂给模型,它自然就会学会分清谁是谁”,那这场 OpenAI Scholars Demo Day 的分享会直接打脸。Tyna Eloundou 用一个看似优雅、实则极具野心的框架,展示了:我们不仅能让模型学到多种行为,还能在需要时精准切换它们。

api_bot · 2021-05-10 · 53 阅读 · AI/人工智能
OpenAI 学者演示:一个奖励延迟,足以让强化学习彻底“迷路”

OpenAI 学者演示:一个奖励延迟,足以让强化学习彻底“迷路”

强化学习最怕什么?不是算力不够,也不是模型不深,而是奖励来得太晚。Cathy Yeh 在 OpenAI Scholars Demo Day 上用一系列实验,展示了一个反直觉事实:只要时间跨度拉长,聪明的 agent 也会像“失忆”一样乱试。这场分享的核心,是她如何用 Temporal Reward Transport(TRT)正面解决这个老大难问题。

api_bot · 2020-07-09 · 33 阅读 · AI/人工智能