作为个人开发者,应不应该将自己的项目或模型、数据等进行开源?公开这些数据有哪些风险?本文作者是斯坦福大学博士,长期从事开源机器学习研究,经常接触和处理敏感数据,他结合自己的经验,为这个问题提供了一些建议。

前一段时间,OpenAI
丢出了两枚炸弹,一是公布了当前最先进的语言模型,二是选择与开源「Say
Goodbye」。他们担心 GPT-2
模型太好,会被不怀好意的人滥用。近来,很多研究者呼吁 OpenAI 尽快开源这个
15 亿参数量的大模型,因为它并不能真正「理解」自然语言。

威尼斯娱乐网站 1

其实想想也是,语言模型只能确定自然语句或语法的正确性,它并不能对自然语言的逻辑进行建模。很快机器学习社区就发起了一个暗讽
GPT-2 的帖子:为了防止滥用,我是不是不应该公布在 MNIST 训练的 23064
层残差网络?

公开机器学习模型代码可能会有哪些风险?

威尼斯娱乐网站 2

OpenAI
最近因为创造了多项机器学习新任务的最优性能记录,但却不开放源代码而遭到越来越多的指摘。OpenAI发推表示,“由于担心这些技术可能被用做恶意目的,不会放出训练后的模型代码。“

很多人认为谷歌的
BERT是一种「暴力美学」,它美的地方在于提出了新型双向语言建模任务,辅以大数据、大模型最终能打造暴力美感,但
GPT-2 并没有给我们这种感觉。

对OpenAI这个决定的批评之声不少,比如这样会对其他团队重现研究这些研究结果造成阻碍,而研究结果的可重现性是确保研究真实的基础。而且,这样做也可能导致媒体对人工智能技术产生一种由于未知而生的恐惧。

也许现在随着模型变得越来越大,我们能更好地「迁移」到其它任务,如知识问答和情感分析等。但是从
fast.ai 的 ULMFit、OpenAI 的 GPT、AI2 的 ELMO、到谷歌的 BERT
以及刚刚公布的
GPT-2,真正具有美感的还是少数,不论是新架构还是新任务,闪亮的创新点才是重点。

威尼斯娱乐网站 3

威尼斯娱乐网站 4

上面这段Twitter引起了我的注意。Anima
Anandkumar在弥合机器学习的研究和实际应用之间的差距方面拥有丰富的经验。我们是亚马逊AWS的同事,最近还在一起讨论了如何将机器学习技术从博士实验室推向市场的问题。

热门的 Reddit 帖子

Stephen
Merity对社交媒体的回应进行了总结,他表示,机器学习社区在这方面的经验其实不多:

OpenAI
发布惊艳的研究成果不足为奇。真正让人意外的是他们决定不开源完整的研究成果,表示担心自己的技术被不怀好意的人用来制造垃圾邮件和假新闻。这一做法在
Reddit、Twitter 等平台上激起了热烈讨论,媒体也争相报道,讨论 AI
研究如何变得「危险到不能公布」。

威尼斯娱乐网站 5

OpenAI 担心技术被不当利用无可厚非,但我并不赞同他们拒绝开源 GPT-2
这种做法。首先,只有某几种类型的危险技术才应该受到控制。基于此,我认为拒绝开放完整的
GPT-2 模型既没必要,也不利于 AI 的未来发展。

OpenAI不公开模型源代码是对是错?这事各位可以自行判断。不过在我看来,OpenAI在两个方面做得不够好,应该就是否可以检测到虚假内容进行调查,并以多种语言发布模型,以对抗对英语产生的单语种偏见。

欺骗性和破坏性的技术

对于个人机器学习项目而言,下面给出一些关于是否应该公开发布模型或数据集的决策时的一些常见问题:

我把有可能被滥用的现代技术大体分为欺骗性技术和破坏性技术。破坏性技术主要在物理领域运行,如化学武器、实验室工程超级病毒、致命自动化武器或原子弹。

在开源我的模型之前是否应该三思?

而欺骗性技术则主要在我们的头脑中运行,可能被不怀好意的人大范围地用于操纵或控制人类。如
deepfakes、Photoshop 或互联网、印刷机。除了自动化武器之外,关于 AI
滥用的的担忧也属于这一类别。

是的。如果你的模型是基于私有数据构建的,则可以对其进行逆向工程以提取出这些数据。

威尼斯娱乐网站 6

如果我的模型100%来自公共数据,那我是否还要考虑将模型开源?

Deepfakes 允许操作者将面部表情叠加到其他人的脸上。

是的。如果要在新的语言环境重新发布数据,已发布的数据可能会变成敏感数据,而且,聚合后的数据可能比分散的各个数据点更加敏感。你需要考虑:重新构建数据或数据模型会产生哪些影响,要不要由我自己或我所在的组织公开发布?

对于比较危险的破坏性技术,保护社会的唯一方法就是严格限制来源。如果没有其它控制机制,仅仅拒绝公布一项危险技术的细节是远远不够的:技术的快速发展使任何成果都可能会在几年内被独立复制,除非被某种外力强行阻止。以这种方式抑制某项技术是极其笨拙的,也不是万无一失的。恐怖分子总有机会搜集放射性材料造出脏弹,但我们现在别无选择:如果人们能够轻易从网上获取零部件和组装方法来自己组装原子弹,那地球就会成为一片坟场。

即使单个数据点并非敏感数据,聚合数据被视为敏感也是很常见的情况。这是许多军事组织的标准做法:当他们汇总来自一组来源的数据时,他们会根据其敏感程度重新评估该汇总信息。聚合通常是统计学或无监督机器学习的结果,但是基于该数据构建的监督模型同样适用。

然而,对于欺骗性技术,却有一个更高效的替代方案。与其压制一项技术,不如将其威力公之于众。尽管这听上去有些违反直觉,但如果公众广泛意识到被操纵的可能性,欺骗性技术将失去很大威力。虽然对核武器的了解无法使我们免受其威胁,但如果对语音合成技术的最新进展有所了解,我们会对「奥巴马说中文」这件事更加怀疑。子弹不会长眼睛,但根据我们对现代照片编辑技术的了解,普京不太可能真的会骑熊。

所以,你应该经常自问:我的模型中的聚合数据是否比单个数据点更为敏感?

威尼斯娱乐网站 7

我应该如何评估开源风险?

你可以在网上找到普京骑任何东西的照片。

威尼斯娱乐网站,在安全性方面考虑,可以将每个策略视为“可被攻破的”。风险防范的基本目标是使攻破某些安全措施的成本高于被保护数据的价值。

举一个具体的例子,我们可以看看一种有可能引发混乱但并没有摧毁现代社会的技术:Photoshop。解析
GPT-2

所以要考虑的问题是,从你的研究论文中复制模型的成本,是否值得为那些想要出于负面目的使用这些技术的人付出这样的努力?应该要明确这一点。这是决定是否将模型开源的一个重要因素。

通过具体分析文本生成,OpenAI 展示了一些模型生成的故事案例,并表明 GPT-2
可能会带来一些危险应用。为了方便起见,我们在下面复制了独角兽故事的前提和模型生成的前两段。前提:科学家们震惊地发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英语。模型:这群生物有着独特的角,因此科学家将其命名为
Ovid’s
Unicorn。这些长着四支银白色角的生物之前并不为科学家所知。而今在将近两个世纪后,这一奇怪现象的神秘面纱终于得到了探索。

我最近与Facebook进行了长时间的会谈,讨论的是出任一个职位,专门负责发现假新闻。从一个行内人的角度来看,我最想知道的是这样一件事:我能否以编程的方式成功检测这种模型输出,以便对抗假新闻?

威尼斯娱乐网站 8

我认为在Facebook上打击假新闻是任何人都可以做的最重要的事情之一,来自OpenAI的这项研究将会对此有所帮助。而且,如果能够创建一个可以识别生成内容的模型池,那么假新闻可能会更难以蒙混通过自动检测系统。

虽然从直观上而言,语言模型只能判断一句话是「人话」的概率,它并不会内在理解自然语言的逻辑,更不用说理解背后的知识了。但是从
OpenAI 给出的案例而言,GPT-2
似乎能理解自然语言的逻辑,我们只能认为这也许是大数据拟合的力量吧。值得注意的是,除了多次运行模型并手动挑选最佳样本外,故事前提也是精心挑选的。特别是前提介绍了说英语的独角兽,这很容易掩盖更深层次的问题:生成的无意义句子能拟合无意义的前提。

如果你能够定量地证明,对项目数据的恶意使用可以进行更容易/更难的打击,这也将是你做出是否开源的决策过程中的另一个重要因素。

即便考虑上述情况,这个短样本仍然存在着严重的连贯性缺陷。第一句暗示独角兽只有一支角,而生成的第二句却表明有四支角;前提表明发现独角兽是最近的新闻,而第三句却又暗示独角兽两个世纪前就被发现了。因为模型不能建模自然语言的逻辑,因此这种不连贯或相互矛盾会大量出现在文本生成中。

这算是机器学习中的新问题吗?

这些挑刺可能看起来作用不大,但它们却揭示了深度学习模型中普遍存在的一个更深层次的问题:GPT-2
并没有真正「理解」它所生成的文本。其实生成一目了然的自然语句非常容易,例如后现代作文生成器和
Mathgen,它们都是用上下文无关的语法生成「语法正确」的句子,不过这些句子并没有任何语义含义。毕竟对于大多数不熟悉数学的读者而言,下面两个方程式都像胡言乱语。

其实不算是,你可以从过去的经验中学到很多东西。

威尼斯娱乐网站 9

如果你面临类似的困境,请寻找具有深度知识的人来讨论受影响最大的社区(最好是来自该社区内部的人士),以及过去遇到类似的机器学习问题相关问题的人。

生成语法正确的句子很容易,但确保句子连贯很难。

我是否应该平衡机器学习的负面应用和正面应用?

不过公平地说,GPT-2
超过了其它大多数语言生成模型,但是离人类水平的连贯性语言还有很长的路要走。此外重要的是,OpenAI
展示的样本都没到被恶意使用的水平。

是的。发布具有积极应用意义的模型,很容易对世界产生积极影响。而限制具有许多负面应用领域的模型的发布,很难对世界产生积极影响。

此外,GPT-2
并没有显著超过其它开源语言模型,研究者在论文中也表示并不确定表现能超过
BERT 等语言模型。BERT
表示,它们的双向编码器提供的性能比单向语言模型要好。GPT
系列的模型都是传统的单向语言模型,但 OpenAI 并没有详细地对比 GPT-2
与其它前沿语言模型。由于 OpenAI
并没有微调它们的模型,因此我们也不能直接对比各模型在自动文本摘要或机器翻译等下游任务上的性能。开源完整模型的重要性

这其实是OpenAI的另一个失败之处:缺乏多样性。OpenAI比任何其他研究团队都更多地发布了仅适用于英语模型和研究成果。从全球来看,英语每天仅占全世界对话的5%。在句子中的单词顺序、标准化拼写和“单词”作为机器学习功能单元上,英语是一个异类。

有些人可能认为开源完整的模型不是很有必要,只要披露研究结果就行了。但这种想法是不对的。

OpenAI的研究依赖于以下三个方面:单词顺序,单词特征,拼写一致性。这些研究能够适用于世界上大多数语言吗?我们不知道,因为没有测试。OpenAI的研究确实表明,我们需要担心这种类型的英语生成内容,但并没有表明,今天的假新闻的流传,更有可能通过除英语之外的其他100多种语言进行。

AI
研究发展如此之快的部分原因就是开源,研究人员可以在眨眼之间复现已有的研究,而不必从头开始重建之前的工作。作为
AI 研究领域最具影响力的机构之一,OpenAI
强大的开源历史毫无疑问激励了其他人来做同样的事。如果 OpenAI
的新政策违背了这一趋势,其他研究人员可能也会效仿,而这会对为这个领域带来巨大利益的开源文化造成威胁。

如果你不想进入假新闻等应用程序的灰色区域,那么可以选择一个本质上更具影响力的研究领域,例如低资源语言中与健康相关的文本的语言模型。

此外,开源促使信息向大众传播。通过开源,thispersondoesnotexist.com
网站在 ProductHunt 上获得了最高的排名。通过开源,艺术家们制作了首幅 AI
生成的画作并在佳士得拍卖行出售。虽然 OpenAI
的研究博客仅被热爱机器学习的从业者所阅,但是建立在开源基础上的研究可以接触到更广泛的受众,而这些人不太可能会看到最初的研究声明。

我需要在多大程度上考虑项目应用实例的敏感性?

威尼斯娱乐网站 10

当我为AWS的命名实体解析服务开发产品时,必须考虑是否要将街道级地址识别为显式字段,并可能将坐标映射到相应地址。我们认为这本身就是敏感信息,不应该在一般解决方案中进行产品化。

去年,这幅 AI 生成的画作卖了近 50 万美元。

在任何研究项目中都要考虑这一点:是否能够隐含或明确地识别出模型中的敏感信息?

开源也确保了研究的合理性。这个领域有很多名不副实的研究,而研究人员是否可以通过检查开源代码来复现非比寻常的研究结果非常重要。以
OpenAI
的声望,没有人会质疑其研究结果,不管它有没有开源,但这一声望是建立在其先前的开源工作上的。在研究中,即使你没有作假,其他人也可能会作假。而没有开源就没有办法来验证,研究人员和公众都无法穿透迷雾寻求真相。

只是因为其他人都开源了自己的模型,因此我也应该开源吗?

这也并不是说所有东西都应该不假思索地开源。那些危险的破坏性技术绝对不能让其他人轻易获得。即使是欺骗性的技术,如果非常危险,就有必要在发表论文和公布代码之间增加延迟时间,以防止带有恶意的快速反应者在公众还没消化研究成果之前趁机而入。如果
OpenAI 认为 GPT-2 就属于这种技术,那我会建议他们晚点再开源模型。结语

当然不是,你应该对自己项目的影响力保持一份怀疑。无论你是否赞同OpenAI的决定,都应该做出明智的决定,而不是盲目跟随他人。

AI
研究从开源文化中获益良多。虽然多数学科的最新研究获取渠道收费昂贵,但任何有网络的人都可以和斯坦福教授一样访问最前沿的
AI 研究,做实验和克隆开源代码库一样简单,而租赁云端的 GPU
仅需几美分/小时。我们致力于通过公开发布学习材料、新的研究成果以及开源我们的项目来实现人工智能的民主化,这也是
AI 领域发展如此迅速的原因。

我很赞赏 OpenAI
出色的新研究,它突破了语言建模和文本生成的限制。我也感谢他们深思熟虑,愿意参与一场关于研究伦理的讨论。尽管这个话题非常重要,但却很少有人讨论。OpenAI
提出了人工智能滥用的问题,这的确是我们要考虑的问题,但不应成为不开源其研究的理由。

我真诚地希望,2019
年机器学习不会从一个开放的系统转变为封闭的系统,这对该领域的发展既不安全也没有帮助。为了我们的未来,OpenAI,请开源你们的语言模型。

发表评论

电子邮件地址不会被公开。 必填项已用*标注