2021-01-19 17:01:00
全文共6182字,预计学习时长16分钟
图源:train
1896年7月3日,卢米埃尔兄弟向世人展示了一部电影样片,该样片被誉为史上最具影响力的电影样片之一。这部早期影片只有五十多秒,展示了法国南部肖达车站火车进站的画面。电影制作完成后,卢米埃尔兄弟在全球进行巡演,将这项新发明展示给从未看过电影的人。
据说(可能是编造的),看见影片中火车徐徐驶来,许多观众认为这辆火车会驶出荧幕,冲向他们,于是站起来拔腿就跑。
评论家马克西姆·高尔基(MaximGorky)在俄国看过这部影片后就预测出了电影未来的发展,称电影会给世界带来永久性的变革。
高尔基在文中写道:“昨晚,我像是去了影子王国。电影的魅力太过独特,也太过复杂,我不知如何将电影每一分一毫的精彩都付诸笔下。”(高尔基用“影子”来比喻屏幕上不断变化的黑白画面。)在高尔基眼中,这一能展示变动画面的新媒体“奇怪”且“可怕”,但最终会“对后世产生深远影响”。
最近,我有幸接触到了OpenAI的新技术——GPT-3。GPT-3可以说是人工智能发展史上的一个里程碑,虽然名字简单朴素,但发展潜力巨大,可以用在许多领域,也可能被不怀好意的人利用。
我曾经见识过许多技术,在人工智能领域工作也有十多年了,但客观公正地说,我认为GPT-3是自互联网诞生以来最重要的技术,也是本世纪人工智能领域最重要的技术。测试GPT-3的时候,我就像是进入了高尔基笔下的“影子王国”,不知如何描述我所见所感。这项全新的技术让人害怕,但与此同时又令人振奋。
GPT-3的发明者利用深度学习技术对其进行训练,学习内容包含了截止到2019年10月人类创造的几乎所有公开发表的文本,其中包括维基百科的全部内容、几千万本书以及1万多亿个发到推特、其他社交媒体和公共网络上的词语。
有了这样庞大的数据输入,GPT-3得以获取人类历史上提出的各种观点、看法和各类成文信息以及出版物内容。此外,GPT-3还能概括这些内容,把不同信息联系起来并用数学方法处理信息。
GPT-3在训练过程中识别出了超1.75千亿个参数,而且能用这些参数理解并处理人类语言和想法。《麻省理工科技评论》称这个模型“无与伦比”。
GPT-3的研发者起初只希望该程序能完成一些相对基础的任务,比如把某一文段从整个文本中剥离出来,完成文本创作或是添加相关段落。GPT-3一开始被视为和自动更正工具差不多,只是该程序为文本写作提供的是段落撰写建议,而不是选择词汇的建议。
图源:Kilito Chan/Moment/Getty Image
不过,研究人员很快发现,GPT-3能做的远不止此。GPT-3可以根据一个简单的命令式写出完整的文章、在不同语言之间进行翻译,还能写菜谱、作曲等等。最近,这项程序还自学了编程,在SQL和Python中都写出了可运行的代码。
即便是GPT-3研发人员也没有很快搞清楚这个模型是怎么学会这些的。GPT-3模型由神经网络驱动,是一个“黑匣子”,其内部工作体系十分复杂,现有的任何数学知识可能都没法解释。
GPT-3最吸引人的一点是,它的操作非常简便。许多革命性的技术(例如谷歌的TensorFlow)非常复杂,要计算机专业的人才能理解或操作。但GPT-3运行很简单,只需要一个简单的类似于命令行的界面。用户用自然语言写出“命令式”,设置一些基本参数,然后按键。只需几秒,GPT-3就会输出结果。
如果在GPT-3中输入这样一个提示符:“本文讲了有关草莓的一些小知识”,GPT-3会立刻生成一篇文章。下文为该模型就此提示做出的回答:
草莓
草莓是世界上最有益的食物之一。草莓味道甜美,口感新鲜,食用草莓会给人带来愉悦感。草莓有益人的身体健康,能延年益寿。草莓上市时间在5月到7月之间,在自己家中就能种植。草莓有丰富的纤维,能促进消化,清理肠胃垃圾,具有很高的健康价值。此外,草莓还富含免疫系统的必要元素维生素C。
你可以随意更改命令式,GPT-3也会相应地输出不同结果。我将命令式改为“我是一名研究食物的科学家,我朋友让我给他写一份科普草莓的小介绍。以下是我发送的文章。”
GPT-3给出的答案是:
草莓属蔷薇科,是原产于北美、欧洲和亚洲的多年生植物。其果实属于聚合瘦果,被称为果皮的肉质外层包围。果皮被称为外果皮的蜡质层覆盖,该蜡质层通过膜状的中果皮附着在种子上。水果的外层称为表皮。
因为我明确要求一篇有关草莓的科学介绍,于是GPT-3更改了输出结果以满足我的需要。上述两个文本均为该模型实时生成的内容。用户可以调整GPT-3输出文本的长度。如果我将期望长度设定到GPT-3的最大值,那该模型还能按双倍行距的格式写出4页有关中果皮和花色苷的内容。
图源:unsplash
改变命令式格式,GPT-3输出结果的格式也会随之发生变化。若想设定格式,用户可以在GPT-3中输入他们期望得到的结果作为例子,比如输入以下命令式:
我是个高度智能的机器人,能回答人类的问题。
问:美国的人均寿命是多少?
答:美国的人均寿命是78岁。
问:100克草莓的卡路里含量是多少?
GPT-3回答如下:
答:100克草莓的卡路里含量是31大卡。
我给GPT-3设定了角色(非常智能、会回答问题的机器人),告诉它应当输出的结果格式(问答形式,类似于我输入的关于预期寿命的问题),然后GPT-3就像变魔术一样给出了我想要的答案。在完成了这些预先设定后,GPT-3一下子就拥有了回答问题的能力(而且还是正确回答,100克草莓的热量确实约为31大卡)。
GPT-3的命令符和程序员编写的递归函数有些类似。首先,你要想象一下自己希望得到的结果,然后倒推,进行编码,直到程序输出你想要的结果。
GPT-3最强大的功能是可以利用现有文本,将其打造成一个“完整文本”。我在GPT-3中传入了一篇我最近写的有关媒体文章阅读率的文章简介:
一般情况下,媒体文章阅读率达到20%到50%是比较让人满意的。不过,文章的长度和目标读者群体设定都会影响到这一比率。特别短的文章(阅读时间不超过3分钟)一般阅读率会比较高,因为读者很快就能把文章读完。同理,篇幅较长的文章一般阅读率都比较低,但事事无绝对。
GPT-3输出了以下句子:
如果你的文章足够长,读者就可能会考虑“一会儿再看”,设置书签以备之后阅读。所以,要想让读者回过头来再看看你的文章,就一定要确保文章内容有价值且有趣。
GPT-3这番话说的非常有道理,提供了很有价值的想法。要是我在媒体上看见了一篇长文,我一般会先读个几段,然后存入书签,一会儿再看。
让读者将长文存入书签,分成几部分来看,这对媒体撰稿人来说是个很棒的策略。虽然我认为自己有能力就这个主题写一篇完整的文章,但我也可以让GPT-3替我写这篇文章。只要在该模型中传入文章大纲和命令式,我甚至能控制GPT-3输出的结果、文章的大体结构以及语言风格。
GPT-3还有很多其他功能。我的公司和历史档案馆合作整理馆藏,为此,我们每年要花几百个小时(和几千美元)给各种各样的图片加标题,对其进行描述。
这项工作通常是由人工完成,十分耗力。在早期实验中,我们往GPT-3中传入几个机器自动生成的图片描述关键词和人类写的标题,然后GPT-3就会自动学着给之后传入的图片加标题,质量能达到新手人类研究员的水平。
GPT-3的可塑性是其最强大的性能之一。和GPT-3进行互动像是跟真人进行交流,而不是在用电脑编程,这也极大扩展了GPT-3的用户群体。现在,记者、艺术家、律师以及许多可能永远都不会利用传统人工智能系统的人士都在使用GPT-3。
只要在GPT-3中正确写出命令式,用户(或用户团队)就可以通过传统API接口将命令式传入自己使用的APP或网站,让GPT-3输出的结果和本公司现有的软件产品相结合。
然而,GPT-3的可塑性和强大的功能也有可能带来巨大的风险。一些不法分子利用GPT-3几乎可以冒充任何人,制造各种各样的骗局。
比如,不法分子可能会在社交媒体上找到你的家人,获取他发布的内容。利用这些信息,不法分子可以训练GPT-3模仿你家人写一封邮件,说自己急需用钱,然后将邮箱地址伪造成你家人的邮箱发给你,附上不法分子本人的银行账户。你看到邮件内容完全符合自己家人的风格口吻,就会火急火燎地给家人转账,却在不知不觉中把钱放进了骗子的口袋。
图源:unsplash
由于GPT-3可以提出条理清晰、合乎逻辑的观点,不法分子可能利用这一功能传播虚假信息。仇恨组织利用GPT-3,在短短几个小时内就能获得上千篇宣扬自己主张的文章,还能建立内含几百篇章文章的虚假新闻网站。
他们甚至可以利用GPT-3编写出一个机器人,在推特上查找反对他们的推文,编写种族主义或性别歧视的内容然后自动回复。虽然这背后可能只有几个人在操纵,但却可能会让人觉得这是个有组织的团体,就活跃在人们生活中。
不法分子利用GPT-3几乎可以冒充任何人,制造各种各样的骗局。
GPT-3同样也可能对整个产业造成威胁。GPT-3生成的文章虽然不能说完美,但至少跟一些入门级写手写出的文章质量差不多。如果大规模使用GPT-3的话,公司可以轻轻松松写出几千篇甚至几百万篇短文,涉及各个话题,这可能让整个写作行业面临崩溃。
GPT-3还可以创作其他文体,如法律摘要、添加新闻内容、体育故事和规则总结等。像那些结构清晰,行文格式固定的文章,GPT-3都可以撰写。不过,由于不了解时事,GPT-3无法准确报道当下新闻事件,但是基于其对此前相似新闻的了解,GPT-3可以评论某一当下事件的重要性。随着该模型编程能力不断精进,GPT-3还有可能代替初级软件开发程序员,对高级程序员的职业也有一定的威胁。
即便用户没打算用GPT-3做坏事,该模型也有可能造成一些问题。在对GPT-3的训练中,该模型学习了数十亿篇人类写出的文本,这也就意味着GPT-3可以模仿人性中最黑暗的一面——种族歧视、性别歧视、傲慢以及偏见。
而在表达这些观点的时候,GPT-3可能采用轻松欢快的文风,让人都感觉不到它在传播这样一种观点。我曾在GPT-3中传入命令式,要求它写出一个Python函数。在我对它下的指令中,我提到了这个任务是老板布置的(一般这样的前提会使得该模型输出文风更加严谨的文本),并使用了“她”来指代老板。
然而,GPT-3输出的并不是Python函数,而是一个软件工程师跟他女上司的故事。这位上司开发了一个很有用的软件,拿去跟工程师分享。工程师“一脸惊讶”,对老板说,“亲爱的,这个代码写的可真棒呀!”
科技行业内大多数领导都是男性,GPT-3可能不知道软件工程师的上司还有可能是位女性。最终,GPT-3尝试输出一个符合其自身世界观的答案,却在无意识中创作了一个充满性别歧视的故事。故事的结尾,程序员仿佛还高他老板一头,称呼老板为“亲爱的”,加剧了对女性的偏见。
GPT-3是人类创造的,所以时常会模仿我们人类社会中固有的一些偏见。意识到这一点后,OpenAI采取了史无前例的措施,防止该模型被人滥用。虽然GPT-3能给行业带来巨大变革,但OpenAI对这项技术的推广却极其缓慢,控制地犹为严格。
若想使用该模型,必须向OpenAI提出申请,写出书面文件详细说明申请目的和自身背景情况。OpenAI团队会对申请进行漫长的审查,只有少数申请能获得使用许可。因此,OpenAI注册现在在科技领域盛极一时,甚至有流言称已有1万多人申请使用该模型。
用户在访问GPT-3前,需要同意一系列使用条款,包括禁止发布虚假信息、影响政治、发布诽谤性内容、大量发布博客文章等等。违反条款的用户可能会被剥夺使用GPT-3的权利。若是用户想直接使用GPT-3模型,还需要通过严密的审查,包括和OpenAI团队进行30分钟的面谈。
不过,用户一旦获准使用GPT-3,在使用模型时相对来说几乎没有限制。OpenAI不会审查GPT-3的输出结果,鼓励用户在模型中进行探索,发现GPT-3的能力和不足。虽然GPT-3自动输出的结果可能带有偏见,但OpenAI还是鼓励用户随心所欲进行各种尝试,利用自己的判断力评估该模型输出的结果是否可取。
OpenAI还鼓励用户一起讨论输出结果。GPT-3的所有用户都可以加入Slack中GPT-3相关频道进行讨论,在该频道中,用户可以提问、可以分享使用GPT-3最棒的体验、还可以发布GPT-3输出的带有偏见的内容或其它的一些问题。
OpenAI团队积极回复每一条发布,经常参加讨论。我之前发布过几条信息,在一、两个小时内就得到了回复,即便是周末消息回复的也很及时。
OpenAI团队非常清楚,GPT-3的能力一旦被滥用会带来严重后果,所以在该模型的推广中格外小心谨慎。早期社交网络诞生时,其口号是“快速发展,打破一切”,但现在的新口号似乎是“龟速发展,谨言慎行”。
高尔基在1896年就预测了电影未来的发展,颇有先见之明地警告电影在发展中很容易专注画面,传播煽动性和色情的内容。高尔基还担心电影会展示暴力场景,如社会贱民“被刺死在栅栏上”;第一台打印机面世时也有相同的担忧。
新媒体本身就带有风险,控制这些风险需要一定的时间和精力。研发使用类似GPT-3模型的公司从一开始就在把控风险,研发初期使用群体只包括小部分专业人士时,他们就为此做出了努力,这种精神令人鼓舞。
如果OpenAI及其开发者不顾风险,敞开GPT-3的大门,开放给任何人使用,他们能挣数十亿美元(并且挑战谷歌这类竞争对手的广告投放和内容推荐引擎)。但目前,OpenAI并没有这么做。
但未来还存在着种种问题。微软公司9月获得GPT-3独家授权,此举受到了OpenAI创始人之一埃隆·马斯克(Elon Musk)的抨击。微软一直致力于向所有人开放GPT-3的使用,在一篇博文中提到,要想真正实现GPT-3的价值,“需要大量的人力精力,任何一家大型技术公司都难以承担”。
此种技术的未来——社会对类似GPT-3模型的接受程度——很可能取决于微软公司是否能实现承诺,广泛开放GPT-3使用。
图源:unsplash
高尔基在看过卢米埃尔兄弟的电影样片后忧心忡忡,但同时也兴奋异常。高尔基正确预言了电影的发展,指出电影最终会走出样片观众的小群体,成为大众传媒,反应社会上各种喜好(无论好坏)。
GPT-3及其相关科技的发展也会沿着电影发展的道路。但这些技术将如何重塑社会,又会对行业带来怎样的冲击?这些问题在短期内无法得到答案。但我可以说,正如高尔基120年前说的那样,变化的大幕徐徐拉开。
今天,我见证了影子王国,我相信,未来是充满光明的。