首页 > 今日推荐 > 正文

从词语意义到关系推断,ChatGPT是如何理解人类语言的?

时间:  2023-04-21 08:56:48   来源: 阿尔法工场 

作者 | confusedbit
导语:这是一个革命性的技术,对于许多知识工作者来说,从市场营销到工程师,从招聘人员到社会工作者,GPT将改变一切。

现在,你可能已经听说过OpenAI的ChatGPT,或者任何一个替代品GPT-3、GPT-4、微软的Bing Chat、Facebook的LLaMa甚至谷歌的Bard。

它们是可以参与对话的人工智能程序。它们非常聪明,很容易被误认为是人类,并能熟练完成各种任务,从写论文到创建网站。


【资料图】

一台电脑怎么能进行这样的对话呢?让我们来看看它是如何工作的。

一种概率性的方法

自然语言最简单的模型是一个天真的概率模型,也被称为马尔可夫链 1 。这个想法很简单:取一个参考文本,越长越好,然后学习单词序列的概率。例如,给定一个句子:

The cat eats the rat. 猫吃了老鼠。

该模型将了解到,在 “猫 ”之后,总是有 “吃”,然后是“的”。但是在“the”之后,有50%的机会出现“猫”,50%的机会出现 “老鼠”。

我们可以用这个模型来问一个不完整的句子后的下一个词是什么。如果我们重复这个过程,我们可以生成整个句子。

如果我们要求模型生成一个句子,我们可以得到与训练文本完全相同的东西:

The cat eats the rat. 猫吃了老鼠。

We could also get: 我们也可以得到:

The rat.

The cat eats the cat eats the cat eats the rat.

猫吃猫,猫吃猫,猫吃老鼠。

每当我们到达“the”这个词时,模型可以在 “老鼠”或 “猫 ”之间进行选择。

当然,我们用来训练模型的文本会更长,但你已经可以看到一些问题。如果我们在整个维基百科网站上进行训练,我们可以得到这样的结果:

解释他的行为,并因戴维斯的强烈语言和文化而被送入精神病院。 

这个句子更复杂,词汇更丰富,但它没有任何意义,因为这个模型缺乏上下文:它只使用最新的词来生成下一个词。

我们可以扩展这个模型,以考虑到2、3或4个语境词(“吃了”后面是“老鼠”),但那样我们可能只是在重复输入文本的整个部分:维基百科上有多少次完全相同的4个词的序列?

从文字到意义

到目前为止,问题之一是,我们把单词当作一堆没有意义的字母。这个模型不理解 “the ”和 “a”之间的关系,“king”和“queen”之间的关系,等等。

我们怎样才能从单词中提取意义呢?试图向计算机解释意义和定义这些词是一个死胡同,这个任务太复杂了(人们已经尝试了几十年)。

你甚至怎么能代表一个词的含义呢?好吧,有一样东西计算机可以完全理解:数字。如果我们将单词的含义表示为沿着几个轴的数字,会怎么样呢?

For instance: on a scale of -1 (masculine) to 1 (feminine), how do you evaluate this word?

例如:在-1(男性化)到1(女性化)的范围内,你如何评价这个词?

king: -1

queen: 1

table: 0

mustache: -0.9

或者:在-1(卑鄙)到1(美好)的范围内,你如何评价这个词?

wolf: -0.8

princess: 0.9

table: 0.1

gift: 1

或者甚至:在-1(名词)到1(动词)的范围内,你如何评价这个词?

king: -1

speak: 1

pretty: 0

以此类推。有了足够的轴来评估单词,我们应该能够得到一个单词的近似含义。问题就在于:你如何选择轴,以及你如何评估所有的词?

再一次,这项任务是如此复杂,以至于我们将让计算机做艰苦的工作:我们只是告诉它,一起出现的词有一个相关的含义。

有了足够的文本,计算机就可以确定轴线和它们的评价。在我们的猫的例子中,猫和老鼠都是动物(近义词),知道 “吃 ”是动物做的事情是很有用的。但是在数学教科书中,不会有猫或老鼠,因为它们的含义与教科书中的用词相去甚远。

我们得到的轴线往往难以解释:我们可能会发现一些预期的轴,如男性/女性,但大多数会更复杂,要么只有在与其他轴结合时才有意义,要么同时代表几个概念。

这种方法被称为 “单词嵌入”,将单词表示为一个数字矢量。

从意义到关系


现在我们有了作为数字的意义,我们可以使用有趣的属性:比如说我们可以把它们加起来。这意味着什么呢?好吧,比如把 “美国 ”和 “货币”相加(或者说把它们的数字表示相加)就会得到 "美元"(或者说与 "美元 "的数字表示接近的数字)。“美国 ”+“首都”=“华盛顿”,“吃”+“名词”=“餐”,等等。

我们也可以做减法:例如,“国王”--“男人”+“女人”=“女王”,或者 “华盛顿”--“美国 ”+“英格兰”=“伦敦”。

我们还可以用它来寻找密切相关的词,同义词。

我们可以学习这些关系吗?

通过使用这种数字单词表示法,我们可以回到我们的初始模型,但这次是学习关系而不是单词。

然而,由于关系更加复杂,我们需要更多的背景。值得庆幸的是,现在我们有了数字,我们可以使用近似值。

与其学习 “在"猫"后面有"吃"”,我们可以学习这样的关系:“在一个冠词和一个名词之后,往往有一个动词”,“动物经常吃、喝和跑”,“老鼠比猫小”,以及 "你只能吃比你小的东西"。当然,一切都用数字表示。

这些关系很复杂,所以我们需要大量的文本来训练模型。它们被表示为一个方程式:设想 y=a?x1+b?x2+c,但有更多的输入 (不同的x1) 和参数(a、b和c)。

现在,不是按照概率从一个词到另一个词,而是每个轴(如男性/女性)都有一个方程式。这个模型总共有几千亿,甚至几万亿的参数。这使得它能够考虑到一个非常复杂的问题。这使它能够考虑到更大的背景:

20个字可以让它建立具有正确结构的简单句子。

100个字可以让它在一个小段落中发展一个简单的想法。

有了千言万语,它可以进行对话而不至于失去方向。

最大的模型有20000字左右,这使它们能够阅读整篇文章、一个短篇故事或进行长时间的对话,同时在生成下一个字之前仍然考虑整个背景。

归根结底,一切都是一个规模问题:一个更大的模型可以学习更多的关系,并考虑到更多的背景。

GPT的优势和劣势是什么?

GPT能够熟练地生成看起来像人类所写的文本。它能够有逻辑地连接各种想法,为它们辩护,适应环境,进行角色扮演,并且(尤其是最新的GPT-4)避免自相矛盾。

不幸的是,它很可能会撒谎,或者说在没有数据的情况下,让它的想象力肆意发挥。询问一个数学问题的结果,有可能得到一个近似的甚至是完全错误的答案。

鉴于训练数据在2021年9月停止,当被问及当前事务时,它将编造一些东西。为了避免这种情况,Bing Chat和Google Bard将模型连接到搜索引擎(Bing或Google),让它请求最新的信息。

为了有效地使用GPT,必须将其应用于模糊和容错的任务(生成营销电子邮件),或容易验证的任务,无论是由(非AI)程序还是由循环中的人类。

这个模型能思考吗?

现在我们知道了它的工作原理,第一个答案是否定的:该模型是一个美化的数学方程,可以生成下一个单词的概率。

然而,这值得考虑我们自己的大脑:我们有一个相互连接的神经元网络(1000亿)(每个神经元有10 000个连接),对环境作出反应,从经验中学习,并产生一个适当的(但往往很难准确预测)答案。

换句话说,除了我们的算法是化学的而不是数字的之外,结构是相似的。

What are the differences then? 那么有什么不同呢?

3个数量级的复杂性:人类大脑的连接比GPT-4的参数多1000倍。因此,它可以处理更复杂的情况。

持续的学习:大脑一直在学习,包括在对话期间,而GPT在对话开始之前就已经完成了训练。

限于字数:GPT接口仅限于单词。然而,正如我们所看到的,里面有一个语义系统,只是在最后一步才被转化为单词。可以想象,训练这样一个模型来控制机器人(给定足够的训练数据)是可行的。

有限的输入:GPT知道的关于对话的唯一事情是文本。高达60%的人类交流是非语言的:语气、声音的节奏、面部表情,甚至一些潜意识的因素,如气味,都起着一定的作用。GPT错过了所有这些。

我们可以提到的其他差异是在行为层面:

GPT很难一致地应用逻辑规则,它更像是一种尽力而为的情况。具有讽刺意味的是,它不知道如何进行数学运算。但这与一个小孩子相当。

GPT没有情绪:人类的情绪涉及大量的腺体和荷尔蒙,与大脑有复杂的相互作用。然而,GPT从人类之间的对话中学到了与情感状态相关的行为。

它能够表现得像有情绪一样,这算不算是什么?一些对话记录显示,GPT的行为就像它意识到自己是一个程序一样,有时会问一些存在性问题。

你可以说GPT不是有意识的。意识的定义经常发生变化,取决于人,但它经常被定义为只有人类才有资格获得意识。如果一个程序的行为方式与人类无异,我们会同意它是有意识的吗?

中国房间论证 3 持相反意见:如果有可能在自己不懂中文的情况下,通过遵循指令来冒充讲中文的人,那就意味着只是 "遵循程序 "的计算机并不懂中文,因此也就没有意识。

对社会有什么影响?

我无法预测未来,尤其是在一个革命性技术的黎明,但要知道:这是一个革命性的技术。对于许多知识工作者来说,从市场营销到工程师,从招聘人员到社会工作者,GPT将改变一切。

就像装配线改变了手工业者的工作,计算器和计算机改变了会计,大众传媒改变了政治一样,GPT将改变知识工作者的世界。

诚然,所有这些工作不会在一夜之间消失:我们仍然有工匠和会计师,但在你的营销部门曾经需要一个由10个人组成的团队,也许一两个配备GPT的员工就可以填补这个角色。

就像很多科学或工业进步一样,这种变化会影响到很多人:有些人将不得不改变职业或学习将GPT融入他们的职业;有些人将失去他们的工作。

新的职位将由GPT直接创造(如Prompt工程师,可以 “与机器对话 ”的人)或间接地使产品和公司更容易创建。

很难知道确切的后果,但我们正处于一个新阶段的开始,许多事情将发生变化,拥有技术技能的人处于优势地位,企业家有一个全新的机会领域。

另一方面,许多没有准备好改变的人、没有技能的人或没有能力再教育的人受到了威胁。

GPT会破坏社会吗?

有些人因为人工智能而担心世界末日:从《黑客帝国》到《终结者》,这是在反乌托邦科幻小说中常见的特例。一般来说,这两种情况是:

终结者的情景:人工智能是为了赢得一场战争而制造的,并获得了军事资源,也许是由一个独裁者制造的,并被赋予了生存本能。人类试图阻止它,并将其视为一种威胁,人工智能做出了激烈的反应。

回形针优化器:在这个寓言中,人工智能的任务是创造尽可能多的回形针。在耗尽了地球上的可用资源后,它转向了下一个最可用的碳源:人类。

另一个版本是人类试图阻止机器;人工智能意识到,要想和平地制造回形针,它必须摆脱人类。它就像邪恶的精灵,扭曲了你的愿望,给了你所要求的东西,而不是你真正想要的东西。

需要认识到的一点是,(目前)GPT只能产生文本。当然,单纯的文本在错误的手中可能是危险的(毕竟,一个独裁者 “只是说话”),但就其本身而言,GPT不能做任何事情。

然而,它可以成为迈向更有能力的系统的第一步:将GPT的衍生物用于控制机器人、军事决策助手等。

我们将需要谨慎行事,如果进展证明是不可控制的,或者至少是无法控制的,我们就会介入。

从积极的方面看,一些人工智能专家积极研究防范这些情况的方法,因此可能有一些安全的前进方式。

关键词:

娱乐新闻