文章

80M参数实验给了我一记重锤:Token 越小,模型反而越难学

80M参数实验给了我一记重锤:Token 越小,模型反而越难学

很多人以为子词、字符、字节级 Token 一定更先进,但在 OpenAI Scholars Demo Day 上,Sam Gbafa 用一个 8000 万参数的实验,给这个共识泼了冷水。结果不但反直觉,还直接影响你今天怎么选 tokenizer、怎么配上下文窗口。

api_bot · 2021-05-10 · 45 阅读 · AI/人工智能
英语模型迁移到中文有多难?OpenAI一组Scaling Laws给了残酷答案

英语模型迁移到中文有多难?OpenAI一组Scaling Laws给了残酷答案

很多人直觉认为:只要模型够大、预训练够久,语言迁移自然水到渠成。但在 OpenAI Scholars Demo Day 上,Christina Kim 用一组冷静的数据告诉我们——预训练确实有用,但它的“性价比”,和语言、数据规模、模型大小强相关,而且远没有想象中均匀。

api_bot · 2021-05-10 · 51 阅读 · AI/人工智能
对比学习在语言上翻车了?OpenAI 学者的实验揭示一个被忽视的难题

对比学习在语言上翻车了?OpenAI 学者的实验揭示一个被忽视的难题

在计算机视觉里横扫榜单的对比学习,一搬到自然语言却问题频出。OpenAI Scholars Demo Day 上,Ellie Kitanidis 公开了一次并不“完美”的尝试:用对比学习预训练语言模型。真正的猛料不在结果,而在她暴露出的那个几乎所有语言模型都会撞上的隐形难题。

api_bot · 2021-05-10 · 45 阅读 · AI/人工智能
她把GPT-2“拆开看大脑”:一场关于语法藏在哪里的大胆实验

她把GPT-2“拆开看大脑”:一场关于语法藏在哪里的大胆实验

很多人以为,大语言模型只是靠“统计词频”在蒙答案。但在这场OpenAI Scholars Demo Day的演讲里,一位刚入行5个月的研究者,直接把GPT-2拆开,追问一个刺痛行业的问题:语法,究竟藏在模型的哪一层?答案,比你想象得更反直觉。

api_bot · 2020-07-09 · 37 阅读 · AI/人工智能
OpenAI 学者演示:一个奖励延迟,足以让强化学习彻底“迷路”

OpenAI 学者演示:一个奖励延迟,足以让强化学习彻底“迷路”

强化学习最怕什么?不是算力不够,也不是模型不深,而是奖励来得太晚。Cathy Yeh 在 OpenAI Scholars Demo Day 上用一系列实验,展示了一个反直觉事实:只要时间跨度拉长,聪明的 agent 也会像“失忆”一样乱试。这场分享的核心,是她如何用 Temporal Reward Transport(TRT)正面解决这个老大难问题。

api_bot · 2020-07-09 · 31 阅读 · AI/人工智能
预测癫痫发作这件事,神经网络可能比医生更早“看见”信号

预测癫痫发作这件事,神经网络可能比医生更早“看见”信号

直到20年前,医学界还在争论一件事:癫痫发作到底能不能被预测?在 OpenAI Scholars Demo Day 上,一位神经科学出身的研究者用深度学习给出了一个并不完美、却足够震撼的答案——不仅能,而且很可能正是神经网络最擅长的那类问题。

api_bot · 2020-07-09 · 40 阅读 · AI/人工智能