用GPT-4解释GPT-2,OpenAI要开始“自我进化”了吗?
2023-05-12 20:52:28 来源:天天炫技

本文来自微信公众号:新智元 (ID:AI_era),作者:新智元,原文标题:《OpenAI炸裂新作:GPT-4破解GPT-2大脑!30万神经元全被看透》,题图来自:视觉中国


(资料图片)

刚刚,OpenAI发布了震惊的新发现:GPT-4,已经可以解释GPT-2的行为!

大语言模型的黑箱问题,是一直困扰着人类研究者的难题。

模型内部究竟是怎样的原理?模型为什么会做出这样那样的反应?LLM的哪些部分,究竟负责哪些行为?这些都让他们百思不得其解。

万万没想到,AI的“可解释性”,竟然被AI自己破解了?

网友惊呼,现在AI能理解AI,用不了多久,AI就能创造出新的AI了。

就是说,搞快点,赶紧快进到天网吧。

一、GPT-4破解GPT-2黑箱之谜

刚刚,OpenAI在官网发布了的博文《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models),震惊了全网。

论文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

只要调用GPT-4,就能计算出其他架构更简单的语言模型上神经元的行为。

GPT-2,就这样被明明白白地解释了。

要想研究大模型的“可解释性”,一个方法是了解单个神经元的具体含义。这就需要人类手动检测神经元,但是,神经网络中有数百亿或数千亿个神经元。

OpenAI的思路是,对这个过程进行自动化改造,让GPT-4对神经元的行为进行自然语言解释,然后把这个过程应用到GPT-2中。

这何以成为可能?首先,我们需要“解剖”一下LLM。

像大脑一样,它们由“神经元”组成,它们会观察文本中的某些特定模式,这就会决定整个模型接下来要说什么。

比如,如果给出这么一个prompt,“哪些漫威超级英雄拥有最有用的超能力?”“漫威超级英雄神经元”可能就会增加模型命名漫威电影中特定超级英雄的概率。

OpenAI的工具就是利用这种设定,把模型分解为单独的部分。

第一步:使用GPT-4生成解释

首先,找一个GPT-2的神经元,并向GPT-4展示相关的文本序列和激活。

然后,让GPT-4根据这些行为,生成一个可能的解释。

比如,在下面的例子中GPT-4就认为,这个神经元与电影、人物和娱乐有关。

第二步:使用GPT-4进行模拟

接着,让GPT-4根据自己生成的解释,模拟以此激活的神经元会做什么。

第三步:对比打分

最后,将模拟神经元(GPT-4)的行为与实际神经元(GPT-2)的行为进行比较,看看GPT-4究竟猜得有多准。

还有局限

通过评分,OpenAI的研究者衡量了这项技术在神经网络的不同部分都是怎样的效果。对于较大的模型,这项技术的解释效果就不佳,可能是因为后面的层更难解释。

目前,绝大多数解释评分都很低,但研究者也发现,可以通过迭代解释、使用更大的模型、更改所解释模型的体系结构等方法,来提高分数。

现在,OpenAI正在开源“用GPT-4来解释GPT-2中全部307,200个神经元”结果的数据集和可视化工具,也通过OpenAI API公开了市面上现有模型的解释和评分的代码,并且呼吁学界开发出更好的技术,产生得分更高的解释。

此外,团队还发现,越大的模型,解释的一致率也越高。其中,GPT-4最接近人类,但依然有不小的差距。

以下是不同层神经元被激活的例子,可以看到,层数越高,就越抽象。

二、把AI的对齐问题,交给AI

这项研究,对于OpenAI的“对齐”大业,意义重大。

在2022年夏天,OpenAI就曾发布博文“Our approach to alignment research”,在那篇文章中,OpenAI就曾做出预测:对齐将由三大支柱支撑。

1. 利用人工反馈训练 AI

2. 训练AI系统协助人类评估

3. 训练AI系统进行对齐研究

在前不久,万名大佬联名签署公开信,要求在六个月内暂停训练比GPT-4更强大的AI。

Sam Altman在一天之后,做出的回应是:构建更好的通用人工智能,就需要有对齐超级智能的技术能力。

究竟怎样让AI“与设计者的意图对齐”,让AGI惠及全人类?

今天的这项研究,无疑让OpenAI离目标更迈进了一步。

Sam Altman转发:GPT-4对GPT-2做了一些可解释性工作

OpenAI的对齐团队负责人也表示,这是一个新的方向,可以让我们同时获得:

详细理解模型到单个神经元的层

运行整个模型,这样我们就不会错过任何重要的东西

令人兴奋的是,这给了我们一种衡量神经元解释好坏的方法:我们模拟人类如何预测未来的模式,并将此与实际的模式进行比较。

目前这种衡量方式并不准确,但随着LLM的改进,它会变得更好。

虽然现在还处于初期阶段,但已经展现了一些有趣的趋势:

后期的层比早期的更难解释

简单的预训练干预可以提高神经元的可解释性

简单的技巧,如迭代细化,可以改进解释

OpenAI可解释性团队负责人William Saunders也表示,团队希望开发出一种方法,来预测AI系统会出现什么问题。“我们希望能真正让这些模型的行为和生产的回答可以被信任。”

三、有趣的神经元

在这个项目中,研究者还发现了许多有趣的神经元。

GPT-4为一些神经元做出了解释,比如“比喻”神经元、与确定性和信心有关的短语的神经元,以及做对事情的神经元。

这些有趣的神经元是怎么发现的?策略就是,找到那些token空间解释很差的神经元。

就这样,背景神经元被发现了,也就是在某些语境中密集激活的神经元,和许多在文档开头的特定单词上激活的神经元。

另外,通过寻找在上下文被截断时以不同方式激活的上下文敏感神经元,研究者发现了一个模式破坏神经元,它会对正在进行的列表中打破既定模式的token进行激活(如下图所示)。

研究者还发现了一个后typo神经元,它经常在奇怪或截断的词之后激活。

还有某些神经元,似乎会在与特定的下一个token匹配时被激活。比如,当下一个标记可能是“from”时,一个神经元会被激活。

这是怎么回事?起初研究者猜测,这些神经元可能是根据其他信号对下一个token进行预测。然而,其中一些神经元并不符合这种说法。

目前,研究者还没有进行足够的调查,但有可能许多神经元编码了以特定输入为条件的输出分布的特定微妙变化,而不是执行其激活所提示的明显功能。

总的来说,这些神经元给人的主观感觉是,更有能力的模型的神经元往往更有趣。

四、网友:OpenAI,搞慢点吧

毫不意外地,网友们又炸了。

咱就是说,OpenAI,你搞慢点行不?

在评论区,有人祭出这样一张梗图:

这就是传说中的“存在主义风险神经元”吧,只要把它关掉,你就安全了(Doge)。

ChatGPT从互联网中学习,现在它正在创造更多的互联网。很快,它就会自我反哺,真正的天网就要来临。

听说GPT-5已经达到奇点,并且它正在与地外生命谈判和平条约。

有网友恶搞了一个关于“Yudkowsky”的解释,他一直是“AI将杀死所有人”阵营的主要声音之一。

之前“暂停AI训练”公开信在网上炒得沸沸扬扬时,他就曾表示:“暂停AI开发是不够的,我们需要把AI全部关闭!如果继续下去,我们每个人都会死。”

他知道我们在计划什么

我们必须不惜一切代价让他丧失信誉

一旦他走了,就没有人能够反对我们了

“Eliezer Yudkowsky看到这一幕,一定又笑又哭——让我们使用自己不能信任的技术来告诉我们,它是如何工作的,并且它是对齐的。”

现在,人类反馈强化学习(RLHF)是主场,当AI懂了AI,将会在微调模型上开辟一个新纪元:

人工智能反馈的神经元过滤器(NFAIF)。

参考资料

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

本文来自微信公众号:新智元 (ID:AI_era),作者:新智元

用GPT-4解释GPT-2,OpenAI要开始“自我进化”了吗?

2023-05-12

瑞银CEO安思杰:瑞信资金外流情况已回稳,合并计划正有序进行

2023-05-12

3M中国因产品不合格被罚20万|环球观焦点

2023-05-12

资讯推荐:冬不拉读后感400字_冬不拉读后感

2023-05-12

照亮生命之光 全球速看料

2023-05-12

合景泰富集团:4月预售额为人民币32.31亿元,与去年同期相比减少25.8%

2023-05-12

高质量发展调研行丨既能隔空“问诊,也能给火箭焊缝“体检”,机器人左右开工护卫中国航天

2023-05-12

如果有人强行占用农民土地怎么办 世界速讯

2023-05-12

社牛&社恐最适合的专业Top10是?

2023-05-12

迪士尼爆雷大跌,又有银行崩了!奔驰工厂突发,2人死亡!马斯克宣布大消息

2023-05-12

大宗交易:康比特成交329.65万元,折价29.09%(05-12)

2023-05-12

林肯z车型的亲子出行优势以及其中的关键技术

2023-05-11

民银资本(01141)5月11日斥资约11.38万港元回购8.2万股

2023-05-11

三大升级、全链突破 天玑 9200+正式发布!多项黑科技领跑移动游戏生态

2023-05-11

专家分析:美联储激进加息冲击拉美新兴经济体 微动态

2023-05-11

每日短讯:多主力现身龙虎榜,秦川机床涨停(05-11)

2023-05-11

天天热文:春耕春播正当时 不负农时不负春

2023-05-11

不供武乌克兰几天就会投降?乌方立刻回击博雷利_速看

2023-05-11

天天快资讯丨哪个地图的卫星地图最新 哪个地图卫星图最清晰

2023-05-11

张江高科(600895):5月11日技术指标出现观望信号-“黑三兵”_世界观热点

2023-05-11

全球新动态:最佳阵容确认!多人落选!他狂亏4000万!

2023-05-11

理想汽车宣布不降价!争取6月份销量破3万

2023-05-11

4月新能源销量同比大增85.6% 哪些车型正在成为燃油车平替?

2023-05-11

【全球播资讯】重磅!这类银行存款利率加点上限下调

2023-05-11

环球即时看!【时讯】凯里工务段:开展集中“充电” 打造宣传“精兵”

2023-05-11

储能中标丨预计300MWh!亿纬动力中标南网科技1C储能电池框架采购

2023-05-11

地铁“枇杷大营救”,火了!

2023-05-11

西部创业:5月10日融券卖出1.63万股,融资融券余额1.16亿元

2023-05-11

福建漳州:住房公积金使用率已达90.44% 最高贷款额将调整|头条焦点

2023-05-11

环球速讯:又一巨头宣布:计划裁减25%员工,这一业务运营40年后被关闭!

2023-05-11

打破文化和商业壁垒,走出剧场的陆家嘴青年戏剧生活节

2023-05-11

浙江当地连续出现双头蛇,并非基因突变,到底暗藏着什么危机呢?

2023-05-11

轻薄本扩容 超短固态2T465元

2023-05-11

头发柔顺和拉直哪个好 柔顺和拉直的区别 即时

2023-05-11

2021 年中级经济师《经济基础知识》阶段测试卷(8)

2023-05-11

惠崇春江晓景宋苏轼_惠崇_焦点快看

2023-05-11

今日热闻!CBA|杨鸣:辽宁队求胜欲更强 赵继伟非常重要

2023-05-11

全屋定制要注意啥_全屋定制要注意什么|热点评

2023-05-11

全球要闻:合八字合了6个字代表什么_合八字

2023-05-10

入党介绍人的介绍意见_入党介绍人的介绍意见怎么写

2023-05-10

深化共建共营共销 华为云生态建设更进一程|当前热门

2023-05-10

国产最大直径盾构机“京华号”顺利掘进_每日焦点

2023-05-10

北向资金今日净买入55.71亿元_世界快报

2023-05-10

股票量化交易是什么意思_焦点快报

2023-05-10

保定哪医院治白癜风效果好些-手部白癜风要怎么治疗

2023-05-10

【快播报】新华指数|5月10日山东港口大商中心钢坯、热轧C料价格微幅下跌

2023-05-10

鲍温病严不严重_鲍温病

2023-05-10

每日热门:减肥吃什么东西最快效果最好

2023-05-10

大宗交易:金龙鱼成交999.92万元,成交价42.75元(05-10)

2023-05-10

天天速看:天舟六号货运飞船将于今日发射

2023-05-10

天天简讯:晨光新材(605399.SH):龙山项目目前处于前期审批阶段

2023-05-10

天天讯息:“股神”又买对了!巴菲特所投日企的业绩与股价齐飞

2023-05-10

桃源浔阳街道:开展常态化禁捕退捕巡查 守护好一江碧水_环球看点

2023-05-10

83家财险公司一季报:59家保费正增长,众安在线亏损最高

2023-05-10

订立遗嘱应具备哪些条件 世界速讯

2023-05-10

聚焦:新编基础训练六年级下册英语参考答案

2023-05-10

午间公告:中原内配拟与专业投资机构共同投资设立私募投资基金

2023-05-10

应急管理部:传统高危行业领域仍是安全整治重点

2023-05-10

成都专业男科:四川哪家医院看男科好-世界热文

2023-05-10

石油板块震荡下行 中国石化等跌超3% 全球热门

2023-05-10

短讯!温蒂汉堡(WEN.US)联手谷歌(GOOG.US)推出人工智能点餐机器人

2023-05-10

奋达科技5月10日加速下跌

2023-05-10

万丰奥威:5月9日融资买入1039.78万元,融资融券余额2.71亿元 环球焦点

2023-05-10

清研环境:融资净买入35.21万元,融资余额1885.01万元(04-14)-当前视点

2023-05-10

启迪设计:正在运用最新AI前沿技术开展设计业务与人工智能结合

2023-05-10

哈药股份:目前哈药总厂原料药按计划陆续恢复,但整体规模较小 世界实时

2023-05-10

2023年1-4月大连房地产企业销售业绩TOP10-世界讯息

2023-05-10

环球焦点!中超第6轮综述,争议频出!足协裁判员再引风波,疑似跨轮找平衡

2023-05-10

铭利达(301268):5月9日北向资金增持4.93万股 今热点

2023-05-10

哈尔滨果戈里大街攻略_哈尔滨果戈里大街

2023-05-10

5月9日基金净值:建信中证1000指数增强A最新净值1.6582,跌1.44% 环球资讯

2023-05-10

【全球时快讯】全民羡慕!即将涨价!苏州这片学区房迎来大改造!实探发现…

2023-05-09

痛风,不能吃“核桃”吗?医生:控尿酸,这7物,建议少吃或不吃

2023-05-09

【世界速看料】浙商证券:给予五洲新春买入评级

2023-05-09

【当前热闻】打造旗舰爆款王 TCL Q10H旗舰Mini LED电视正式发布

2023-05-09

深圳今年计划供应居住用地330公顷 批准预售和现售商品住房6万套-环球头条

2023-05-09

每日速递:因内部分歧 欧盟近期或无法就新一轮对俄制裁达成一致

2023-05-09

天天微动态丨唐山八中录取分数线2019_唐山八中录取分数线

2023-05-09

变更法人名称流程-全球球精选

2023-05-09

速读:横琴2023全球招商大会今开幕

2023-05-09

Yiwealth SMI|21W!这家基金赶超百万大V,刷新点赞纪录!

2023-05-09

当日快讯:汇成股份:下游需求有所复苏,公司预计接下来毛利率有可能回升

2023-05-09

今日热讯:今日看到网上很多人都在用精品化妆品,效果如何?

2023-05-09

5月9南钢南京地区螺纹钢价格上调 微速讯

2023-05-09

公安机关对哈尔滨私拆承重墙事件责任人采取刑事强制措施

2023-05-09

高斯求和是几年级学的_高斯求和

2023-05-09

欧冠死亡半区只能有一个大哥,那就是:

2023-05-09

美国银行业“风雨”又至-全球观点

2023-05-09

创业精神有哪些合理内容?_A_创业精神

2023-05-09

闹市区男孩当街被抢走?警方辟谣:误会 环球今日报

2023-05-09

【世界时快讯】iPhone 14拉胯!苹果十年口碑崩了

2023-05-09

世界快资讯丨打造“最懂青年”的服务阵地,武汉经开区全力南青年之家揭牌启用

2023-05-09

人到中年,读懂“相见时难”-每日信息

2023-05-09

《兰州市青年发展友好政策手册》发布

2023-05-09

名记保罗确认缺席G5 太阳VS掘金天王山之战保罗因腹股沟拉伤继续缺席(今日/头条)-世界看点

2023-05-09

中阳:孙燕飞就安全生产工作进行调研

2023-05-09

5月电动车之争拉开序幕!爱玛、9号、雅迪多家大牌出手,都是爆款

2023-05-09

马力刺客|仰望U9+兰博基尼Revuelto+路特斯ELETRE 上海车展10000匹大挑战

2023-05-09

雷施克:不认为图赫尔和穆勒有嫌隙 凯恩和奥斯梅恩是世界前5中锋

2023-05-09

五个杀手老爸训练儿子_五个杀手

2023-05-09