
OpenAI总裁Greg Brockman在开发者活动上接受访谈,时间是Sora 2发布后不久。对话涵盖了从Sora的技术架构、硬件合作到AI如何重塑互联网,以及AGI的时间线等话题。Greg坦诚地分享了OpenAI在计算资源分配上的内部挣扎,以及他们如何从一家纯软件公司转变为需要考虑建设数据中心、甚至自建能源设施的基础设施公司。
这次访谈最珍贵的地方在于相对真实(我觉得比奥特曼的访谈真实)。Greg没有回避OpenAI面临的困境,他用"pain and suffering"(痛苦与挣扎)来形容内部的计算资源分配决策,也直言美国的能源供应将成为AI发展的最大瓶颈。同时,他对base模型与后训练模型的对比,以及对AGI定义的重新思考,都展现了一线AI研究者的深度洞察。
TL;DR:太长不看:Q1:OpenAI内部如何决定计算资源分配?A:用Greg的话说就是"pain and suffering"。研究团队和应用团队先在高层分配,然后由首席科学家和研究负责人决定具体项目。每个项目都很棒,但GPU有限,只能艰难取舍。
Q2:为什么说基础模型包含"宇宙的可能性"?A:Base模型(基础模型)通过next-token prediction观察了人类的所有思想和情感,包含所有价值观和世界观。但后训练会将其收窄为一致的personality,这既是产品化的必要,也是一种遗憾。
Q3:AI会如何改变互联网?A:静态网站和点击按钮的交互方式会变得"不自然"。人们会更保护自己的时间,任何不需要人类思考、创造力或反馈的筛选工作,都应该交给AI。
一、从软件梦想到能源焦虑,一个AI公司的转型技术进步往往伴随着预期的修正。
回到2015、2016年,OpenAI的团队把AGI看作一个纯粹的软件问题。"我们以为只要想出几个新idea,点击到位,AGI就创造出来了。" Greg回忆说。那时候,他们认为这是个智力游戏,是算法的突破。
但现实很快打破了这个浪漫的想法。他们发现,AGI其实是一个计算问题。计算是比其他要素更容易扩展的"基础试剂",所以你必须疯狂地压榨计算资源,把它推到极限。然后你会意识到,这其实是一个巨大的物理基础设施建设项目。
现在OpenAI在做什么?建设Stargate项目,开始建自己的数据中心。Greg说得很直白:"我们正在进入那个世界。"但问题还没完。当被问到是否会投资自己的能源网格和系统时,Greg的回答是:"如果市场能够意识到我们大声疾呼的需求,那很好,我不想去搞清楚怎么建能源设施。但我们必须完成使命。"
这个转变令人震撼。从"点击几下就能创造AGI"的软件梦想,到不得不考虑建设能源设施的现实,中间只隔了不到十年。Greg认为,能源将成为美国AI发展的最大瓶颈,整个供应链都还没有适应即将到来的需求冲击。
二、计算分配就是痛苦与挣扎,没有更好的词选择永远比资源更痛苦。
主持人问OpenAI内部如何决定计算资源的分配,Greg的回答只有四个字:"Pain and suffering"(痛苦与挣扎)。他补充说:"这是唯一的、真实的答案。"
为什么这么痛苦?因为每个项目都很棒。有人来pitch一个新的惊艳想法,你会说"是的,这确实惊艳",但GPU就那么多。"你们做了这么多事情,我们是个小公司都不知道该做哪些,我无法想象OpenAI的规模下怎么决策。" 主持人的困惑引出了Greg对决策机制的解释。
具体流程是这样的:首先在研究团队和应用团队之间分配,这个决策通常由Sam(CEO)和Mira(前CTO,现已离职)等高层做出。然后在研究团队内部,首席科学家Ilya(现已离职)和研究负责人Mark共同决定具体的计算分配。
但真正的魔法在执行层面。Greg提到了团队成员Kevin Park,他的工作就是不断地"倒腾GPU"。"你去找他说,'好的,我们需要给这个突然冒出来的项目更多GPU。'他会说,'好吧,这五个项目正在收尾,这个项目需要在某个时间点完成,所以我们可以让这个俄罗斯方块工作。'"
Greg观察到,计算资源是团队生产力的核心驱动力,所以人们非常在意能不能拿到GPU。"围绕'我能不能拿到计算资源'的能量和情绪,是不能被低估的。"
他还提到一个更宏观的视角:OpenAI内部的这种计算资源争夺,其实是未来整个经济的缩影。计算将成为整个经济中生产力的驱动力,现在OpenAI内部的微观世界,将会在全社会上演。
三、Base模型是宇宙,后训练让它收窄未经雕琢的原石,往往包含最多的可能性。
Greg提到了一个很少被外界理解的事实:"对我来说,每个界面、每次后训练,都有点令人遗憾,因为你实际上以深刻的方式收窄了原始模型的能力。"
什么是base模型?它通过next-token prediction训练,观察人类公开数据中的所有思想和情感。在推理时,它就像被扔进了某个文档的中间位置,你在问它"接下来会出现什么"。
所以使用base模型很难。你得思考:"我怎么格式化我的query,让它看起来像自然出现的数据分布?"比如,如果你给它一个问题-答案、问题-答案、问题-答案的序列,然后再给一个问题,它可能会给你答案。但如果你只给一个问题,它可能会给你另一个问题。你在试图让AI"角色扮演",让它觉得自己处在某个合理的文档中。
GPT-3就是一个base模型,用起来需要大量的prompt engineering。你得提供六个任务示例,然后才能让它完成第七个。
但base模型的真正魔力在于:它包含一切。Greg引用了Ilya的比喻:"训练这些base模型更像是在训练整个人类,而不是一个人。它包含所有价值观、所有世界观。" 对于它如何回应某个问题,几乎任何人类可能的回应,你都可以通过设置让模型给出。
那为什么要做后训练?因为如果你想要一致的价值观、guardrails、以及符合OpenAI model spec的行为,你需要额外的步骤。后训练就是把这个原始的宇宙、这个原始的智能,提炼成一个几乎一致的personality或行为集合。
Greg说得很感性:"对我来说有点遗憾,因为这些raw base模型玩起来极其困难,但它们内部有一个可能性的宇宙。"这是产品化的必要代价,但也是一种真实的损失。
四、静态网站,一种不自然的存在有些习以为常的东西,只有在消失时才显得荒谬。
"ChatGPT真的让你意识到,去一个静态网站只是为了阅读东西,是多么不自然。" Greg的这句话,可能会让很多web开发者感到不适,但他说的是实话。
想想你平常做什么:为了找一个事实,你在一个大页面里挖掘,而这个页面的大部分内容跟你要找的东西无关。这其实不是增值时间,而是在大海捞针,机器本该为你做这件事。
更进一步,现在有了ChatGPT里的动态应用(比如Zillow的演示),你会发现去网站点一堆按钮来完成某件事,感觉也很落后。"这感觉像是我们早该摆脱的东西。"
Greg认为,我们正在进入一个人们更加保护自己时间的世界。"因为现在没有借口了。任何不需要人类思考、创造力或提供方向、反馈的事情——如果你只是在筛选一大堆东西,那就是AI该做的。"
这带来了一个棘手的问题:传统的web货币化怎么办?CPM广告、用眼球换免费内容的模式,在AI代理代你浏览时还能存在吗?Greg承认没人知道答案,需要探索新的货币化模式。但他坚持一个原则:新技术会给那些真正为用户增加价值的产品施加压力。
ChatGPT本身就是订阅制产品,这在三年前发布时可能没有预料到,但人们愿意付费,因为它真的增加价值。Greg说:"广告仍然有位置,但那种你漫无目的地滚动、试图找到一句你在意的话、顺便看到广告的模式,感觉不再是价值的根本驱动力了。"
关于ChatGPT会不会成为AI时代的"app store",Greg的回答很谨慎。他认为AI的发展总是以令人意外的方式展开,不会完全复制互联网或移动时代的模式。"AI的核心是让机器更接近人类,而不是让你扭曲自己去适应机器。" 所以未来可能不会有一个单一的入口,因为表面积太大了。
五、AGI不是终点,是持续的旅程最重要的转变,往往是对目标本身的重新理解。
Greg承认,他对AGI的定义改变了。"我过去真的把它看作一个终点。我们就是要建OpenAI来完成使命。但现在,我们真的把它看作一个持续的过程。"
2018年OpenAI对AGI的定义是"能够完成大部分有经济价值的人类工作的AI",这是个重要的里程碑,但不是结束。Greg强调,真正重要的是后续的跟进:你能让AI持续进步吗?能提升整个经济吗?能真正把这些好处带给人们吗?
这需要思考很多实际问题。比如Sora的产品设计,比如ChatGPT的安全考虑,这些都是使命的核心部分。"所以我们真的试图端到端地思考整个过程。"
关于时间线,Greg说得很直接:"我认为是1到3年的时间范围。可能更接近3年而不是1年,但如果到2030年我们还没实现,那感觉像是出了什么问题。"
有意思的是,他提到人们现在开始从AGI转向谈论"超级智能",或者完全拒绝这些词。对他来说,这不是最重要的。重要的是能不能让AI进步、能不能提升整个经济、能不能真的把好处带给人们。
2026年的开发者日会有什么?Greg最兴奋的里程碑是"真正能解决难题的模型"。他用AlphaGo的37号位举例——那个改变了人们对围棋理解的一步棋——想象一下这样的突破出现在编程、材料科学、医学领域。"可能AI本身就能做到,但我认为AI辅助顶尖人类会更快实现。"
他也提醒,这需要大量计算,所以必须确保这些任务有经济价值,否则没人愿意资助那些计算。对于2030年,Greg认为已经超出了很多人的AGI时间预期,很难预测。但从他的语气里能感觉到,那个时候的世界,会比我们现在想象的更陌生、也可能更美好。
One more thing访谈还涉及了一些技术细节和产品思考。关于Sora,Greg解释说虽然文本和视频看起来是完全不同的模态,但它们背后的计算过程有巨大的重叠,都是transformer架构,都是forward pass、backward pass、gradient step,这个事实"真的很深刻"。不同模型在推理时有不同的性能特征,需要不同的优化,但从根本上看,一切都是在做矩阵乘法。
硬件方面,OpenAI宣布了与AMD的合作。Greg透露他们其实投资AMD软件很多年了,因为他们基于Triton构建,绝大多数GPU都在跑Triton kernels。现在AMD的推理性能已经很好,MI450系列有很多创新。关于Cerebras这样的wafer-scale计算,Greg说2017年他们看到时超级兴奋,但后来发现构建非GPU架构比预期难得多。很多芯片公司不听他们的建议,因为2017年的OpenAI和今天很不同——"你会惊讶,人们到现在还不总是听。"
Sora 2为什么做成社交产品?Greg的逻辑是:模型的能力决定产品形态,就像GPT-4"想要成为一个chat模型"一样,Sora 2的能力特点让社交体验成为自然的选择。关于Cameo功能(让别人用你的形象生成视频),Greg说出人意料地舒适,而且6个月后不管OpenAI做不做,肯定会有其他公司发布不受限制的视频模型,"我们正在走向一个所有人的形象都会被Cameo的世界"。
关于AI对工作的影响,Greg既现实又乐观。他承认会改变很多工作,但认为人类连接相关的工作很难被取代,而水管工、电工这样的技能工种已经短缺,AI更难在这些领域增加价值。"我们正在走向一个丰裕的世界,即使你不在经济上工作,也应该有惊人的生活质量。" 最后,关于开发者的平台风险,Greg说OpenAI必须非常谨慎地选择进入哪些领域,因为他们只有几千人,不可能覆盖整个经济,他们优先选择有协同效应的领域,比如编码——既是OpenAI的专长,做好了也能加速自己的工作。
联富配资提示:文章来自网络,不代表本站观点。