互联网

大三学员单独破解逆天AI模型:小编只是把撩妹的小运,都用于切磋机器学习了

作者:永利官网    发布时间:2020-01-10 02:25     浏览次数 :114

[返回]

前一段时间,OpenAI 丢出了两枚炸弹,一是公布了当前最先进的语言模型,二是选择与开源「Say Goodbye」。他们担心 GPT-2 模型太好,会被不怀好意的人滥用。近来,很多研究者呼吁 OpenAI 尽快开源这个 15 亿参数量的大模型,因为它并不能真正「理解」自然语言。

图片 1

图片 2

其实想想也是,语言模型只能确定自然语句或语法的正确性,它并不能对自然语言的逻辑进行建模。很快机器学习社区就发起了一个暗讽 GPT-2 的帖子:为了防止滥用,我是不是不应该公布在 MNIST 训练的 23064 层残差网络?

问耕 发自 雁栖湖

世界上最大的语言模型来了,顺便还破了个记录!英伟达宣布,目前已经训练出了世界上最大的语言模型——MegatronLM。这个模型有多大?83亿个参数!比谷歌的 BERT 大24倍,比 OpenAI 的 GPT-2 大5.6倍!不仅如此,英伟达还宣布打破了实时对话 AI 的记录——耗时53分钟就可以训练出行业标准的BERT模型、2毫秒左右就能对答案做出推断。AI硬(he)件(dan)厂商英伟达今天宣布,他们在NLP模型上取得了三大突破,为今后会话AI的落地应用铺平了道路。

图片 3

量子位 出品 | 公众号 QbitAI

英伟达用自己的硬件与并行计算软件相结合,在BERT模型的训练和推理上创下三项世界纪录:

很多人认为谷歌的 BERT是一种「暴力美学」,它美的地方在于提出了新型双向语言建模任务,辅以大数据、大模型最终能打造暴力美感,但 GPT-2 并没有给我们这种感觉。

GPT-2,一个逆天的AI。

1.最快的BERT训练速度,只需53分钟

也许现在随着模型变得越来越大,我们能更好地「迁移」到其它任务,如知识问答和情感分析等。但是从 fast.ai 的 ULMFit、OpenAI 的 GPT、AI2 的 ELMO、到谷歌的 BERT 以及刚刚公布的 GPT-2,真正具有美感的还是少数,不论是新架构还是新任务,闪亮的创新点才是重点。

今年2月,OpenAI首次对外公布了这个模型的存在。GPT-2写起文章来文思泉涌毫无违和感,无需针对性训练就能横扫各种特定领域的语言建模任务,还具备阅读理解、问答、生成文章摘要、翻译等等能力。

2.最快的BERT推理速度,只需2.2ms

图片 4

但不同寻常的是,这个模型并没有真的开源。OpenAI给的解释是,它太过强大,我们不敢放出完整模型……尽管因此被外界嘲笑,但GPT-2仍然封闭至今。

3.最大的BERT模型,包含83亿参数

热门的 Reddit 帖子

现在,有人单枪匹马,破解了OpenAI不欲人知的秘密。

今年以来,NLP领域的“军备竞赛”越来越激烈。基于Transformer架构的模型,如谷歌的XLNet和Facebook的RoBERTa,在GLUE、SQuAD这些基准测试榜单头名争夺中你方唱罢我登场。

OpenAI 发布惊艳的研究成果不足为奇。真正让人意外的是他们决定不开源完整的研究成果,表示担心自己的技术被不怀好意的人用来制造垃圾邮件和假新闻。这一做法在 Reddit、Twitter 等平台上激起了热烈讨论,媒体也争相报道,讨论 AI 研究如何变得「危险到不能公布」。

而且,是一个大三的学生。

两大公司为了刷榜的消耗了大量的时间和计算资源。为了提高BERT的训练速度,谷歌堆上了1024块TPU,用76分钟训练出了BERT模型。Facebook用上了1024个英伟达V100 GPU。

OpenAI 担心技术被不当利用无可厚非,但我并不赞同他们拒绝开源 GPT-2 这种做法。首先,只有某几种类型的危险技术才应该受到控制。基于此,我认为拒绝开放完整的 GPT-2 模型既没必要,也不利于 AI 的未来发展。

来自慕尼黑工业大学的Connor Leahy同学,在两个月的时间里,付出了200个小时的时间,花费了大约6000人民币,复现了GPT-2项目。

英伟达也不甘示弱,用1472个V100 GPU首次实现在一个小时之内训练完BERT模型。

欺骗性和破坏性的技术

这件事在推特上引发了众多关注。称赞Awesome的有之,深入讨论的有之,甚至连OpenAI的几位资深研究员,都赶来沟通。

英伟达表示,这项研究能够帮助企业使用实时会话AI更自然地与客户互动,帮助开发人员将最先进的NLP模型大规模部署在应用程序中。

我把有可能被滥用的现代技术大体分为欺骗性技术和破坏性技术。破坏性技术主要在物理领域运行,如化学武器、实验室工程超级病毒、致命自动化武器或原子弹。

另外让人佩服的是,Connor Leahy同学关于机器学习的知识,都是利用空闲时间自学而成。他形容自己是一个充满好奇心的本科生。

最大的BERT模型

而欺骗性技术则主要在我们的头脑中运行,可能被不怀好意的人大范围地用于操纵或控制人类。如 deepfakes、Photoshop 或互联网、印刷机。除了自动化武器之外,关于 AI 滥用的的担忧也属于这一类别。

“我只是把别人出去撩妹的时间,用来搞AI实验了而已。”

英伟达使用了92个DGX-2H节点、1,472个V100 GPU的DGX SuperPOD系统来训练BERT模型,将BERT-Large训练时间从几天缩短到到53分钟。

图片 5

一气之下

如果你觉得上面的堆硬件太过暴力,英伟达也给出更低配置下的训练速度。他们在“只有”16个V100 GPU的NVIDIA DGX-2用2.8天内训练了BERT-Large,展示了英伟达GPU对于会话AI的可扩展性。

Deepfakes 允许操作者将面部表情叠加到其他人的脸上。

GPT-2是OpenAI最棒的研究成果。

考虑到开发人员对大型NLP模型不断增长的需求,英伟达建立并训练了世界上最大的基于Transformer的语言模型GPT-2 8B,它具有83亿个参数,是BERT-Large的24倍、GPT-2的5.6倍。

对于比较危险的破坏性技术,保护社会的唯一方法就是严格限制来源。如果没有其它控制机制,仅仅拒绝公布一项危险技术的细节是远远不够的:技术的快速发展使任何成果都可能会在几年内被独立复制,除非被某种外力强行阻止。以这种方式抑制某项技术是极其笨拙的,也不是万无一失的。恐怖分子总有机会搜集放射性材料造出脏弹,但我们现在别无选择:如果人们能够轻易从网上获取零部件和组装方法来自己组装原子弹,那地球就会成为一片坟场。

这个模型是GPT的“进化版”,最大区别就在于规模大小。GPT-2参数达到了15亿个,使用了包含800万个网页的数据集来训练,共有40GB。

GPT-2 8B模型使用原生PyTorch进行训练,在512 GPU上有8路模型并行和的64路数据并行。实验是在DGX SuperPOD上进行的,其基准模型为12亿个参数,适用于单个V100 GPU。在单个GPU上运行此基线模型的端到端训练pipeline可实现39 TeraFLOPS的算力,这是V100 GPU的理论峰值算力的30%。

然而,对于欺骗性技术,却有一个更高效的替代方案。与其压制一项技术,不如将其威力公之于众。尽管这听上去有些违反直觉,但如果公众广泛意识到被操纵的可能性,欺骗性技术将失去很大威力。虽然对核武器的了解无法使我们免受其威胁,但如果对语音合成技术的最新进展有所了解,我们会对「奥巴马说中文」这件事更加怀疑。子弹不会长眼睛,但根据我们对现代照片编辑技术的了解,普京不太可能真的会骑熊。

使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。

通过8路并行模型将模型扩展到512个GPU上的83亿个参数,NVIDIA团队在整个应用程序中实现了高达15.1 PetaFLOPS的持续性能,并且与基线相比达到了76%的扩展效率。

图片 6

GPT模型

为了研究这些几十亿参数的Transformer网络,英伟达还开源了Megatron项目。

你可以在网上找到普京骑任何东西的照片。

OpenAI的研究人员表示,在各种特定领域数据集的语言建模测试中,GPT-2都取得了优异的分数。作为一个没有经过任何领域数据专门训练的模型,它的表现,比那些专为特定领域打造的模型还要好。

最快的推理速度

举一个具体的例子,我们可以看看一种有可能引发混乱但并没有摧毁现代社会的技术:Photoshop。解析 GPT-2

除了能用于语言建模,GPT-2在问答、阅读理解、摘要生成、翻译等等任务上,无需微调就能取得非常好的成绩。

上面的推理部分太过“烧钱”,而英伟达在BERT推理上取得的进步可以让普通开发者也能用上。因为现在一些实时处理的任务也开始用上了Transformer,比如语音合成、语音识别。

通过具体分析文本生成,OpenAI 展示了一些模型生成的故事案例,并表明 GPT-2 可能会带来一些危险应用。为了方便起见,我们在下面复制了独角兽故事的前提和模型生成的前两段。前提:科学家们震惊地发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英语。模型:这群生物有着独特的角,因此科学家将其命名为 Ovid's Unicorn。这些长着四支银白色角的生物之前并不为科学家所知。而今在将近两个世纪后,这一奇怪现象的神秘面纱终于得到了探索。

GPT-2发布后,深度学习之父Hinton献出了他注册Twitter以来的第三次评论:“这应该能让硅谷的独角兽们生成更好的英语了。”

但是Transformer在这些落地化场景中却遇到了困难。这是因为在推理部署阶段,计算性能会面临巨大的挑战。以BERT为原型的多层Transformer模型,其性能常常难以满足在线业务对于低延迟和高吞吐的要求。

图片 7

关于这个模型的强大表现,可以参考量子位之前的报道,这里不再赘述。

于是,英伟达提出了Faster Transformer,并在GitHub上开源了代码。

虽然从直观上而言,语言模型只能判断一句话是「人话」的概率,它并不会内在理解自然语言的逻辑,更不用说理解背后的知识了。但是从 OpenAI 给出的案例而言,GPT-2 似乎能理解自然语言的逻辑,我们只能认为这也许是大数据拟合的力量吧。值得注意的是,除了多次运行模型并手动挑选最佳样本外,故事前提也是精心挑选的。特别是前提介绍了说英语的独角兽,这很容易掩盖更深层次的问题:生成的无意义句子能拟合无意义的前提。

总之,就是一个字:强。

Faster Transformer是一个BERT Transformer单层前向计算的高效实现,代码简洁,后续可以通过简单修改支持多种Transformer结构。

即便考虑上述情况,这个短样本仍然存在着严重的连贯性缺陷。第一句暗示独角兽只有一支角,而生成的第二句却表明有四支角;前提表明发现独角兽是最近的新闻,而第三句却又暗示独角兽两个世纪前就被发现了。因为模型不能建模自然语言的逻辑,因此这种不连贯或相互矛盾会大量出现在文本生成中。

就是因为强,OpenAI做了一个艰难的决定:不把完整的模型放出来给大家。他们先是放出了不到十分之一规模、1.17亿个参数的小型版本,被吐槽几个月后又放出了3.45亿参数的中型版本。

目前优化集中在编码器的前向计算。底层由CUDA和cuBLAS实现,支持FP16和FP32两种计算模式,其中FP16可以充分利用Volta和Turing架构GPU上的张量核心单元。

这些挑刺可能看起来作用不大,但它们却揭示了深度学习模型中普遍存在的一个更深层次的问题:GPT-2 并没有真正「理解」它所生成的文本。其实生成一目了然的自然语句非常容易,例如后现代作文生成器和 Mathgen,它们都是用上下文无关的语法生成「语法正确」的句子,不过这些句子并没有任何语义含义。毕竟对于大多数不熟悉数学的读者而言,下面两个方程式都像胡言乱语。

毫无疑问,GPT-2激发了Connor Leahy同学的好奇心,同时,OpenAI私藏这个模型的决定,也让他非常生气。“信息应该是自由的。”

英伟达使用运行TensorRT的T4 GPU,仅在2.2毫秒内就对BERT-Base SQuAD数据集进行了推理,远低于许多实时应用的10毫秒处理阈值。

图片 8

于是他决定自己动手复现出来。

英伟达测试了不同生产环境下Faster Transformer前向计算的执行时间以及与TensorFlow XLA的性能比较。

生成语法正确的句子很容易,但确保句子连贯很难。

他不只是因为一时冲动。对于为什么要复现GPT-2,Connor Leahy同学在自己的博客里有长长的思考,其中包括与其害怕AI编造的假新闻,不如积极行动起来,让大家意识到这个问题,勇敢面对然后想办法解决。

在小batch size情况下,12层Transformer在P4和T4上的性能表现如下:

不过公平地说,GPT-2 超过了其它大多数语言生成模型,但是离人类水平的连贯性语言还有很长的路要走。此外重要的是,OpenAI 展示的样本都没到被恶意使用的水平。

当然还有另一个原因,他觉得这么做:

固定句子长度为32,标准模型和裁剪模型在不同batch size下,12层Transformer在V100上实现了2倍的速度提升:

此外,GPT-2 并没有显著超过其它开源语言模型,研究者在论文中也表示并不确定表现能超过 BERT 等语言模型。BERT 表示,它们的双向编码器提供的性能比单向语言模型要好。GPT 系列的模型都是传统的单向语言模型,但 OpenAI 并没有详细地对比 GPT-2 与其它前沿语言模型。由于 OpenAI 并没有微调它们的模型,因此我们也不能直接对比各模型在自动文本摘要或机器翻译等下游任务上的性能。开源完整模型的重要性

很酷。

为了实现这一壮举,英伟达利用模型的并行性,将一个神经网络分割成多个部分,创建了因数据太大无法容纳在单个GPU的训练模型。

有些人可能认为开源完整的模型不是很有必要,只要披露研究结果就行了。但这种想法是不对的。

复现版GPT-2

最重要的是,代码已开源!

AI 研究发展如此之快的部分原因就是开源,研究人员可以在眨眼之间复现已有的研究,而不必从头开始重建之前的工作。作为 AI 研究领域最具影响力的机构之一,OpenAI 强大的开源历史毫无疑问激励了其他人来做同样的事。如果 OpenAI 的新政策违背了这一趋势,其他研究人员可能也会效仿,而这会对为这个领域带来巨大利益的开源文化造成威胁。

“你怎么知道自己成功复现了15亿参数的GPT-2模型?”

GitHub项目地址:-LM

此外,开源促使信息向大众传播。通过开源,thispersondoesnotexist.com 网站在 ProductHunt 上获得了最高的排名。通过开源,艺术家们制作了首幅 AI 生成的画作并在佳士得拍卖行出售。虽然 OpenAI 的研究博客仅被热爱机器学习的从业者所阅,但是建立在开源基础上的研究可以接触到更广泛的受众,而这些人不太可能会看到最初的研究声明。

这个问题,恐怕绝大多数人都想知道答案。

MegatronLM,堪称 NLP 界的“威震天”!

图片 9

Connor Leahy同学给出的回应是:两个模型的大小和参数量相同,基于相似的数据源训练,使用了类似的计算资源,而且输出结果质量相仿。

有钱任性:训练史上最大语言模型需要多少GPU?

去年,这幅 AI 生成的画作卖了近 50 万美元。

他也给出了两者的一些明确不同,比方:

更大的语言模型对于诸如文章完成、问题回答和对话系统等NLP任务非常有用。最近,训练最大的神经语言模型已经成为提高NLP应用水平的最佳方法。