隋唐演义

隋唐演义

ChatGPT人工智能语言 chatgpt 为什么是机器学习模型

双十一 0

手机淘宝搜:天降红包55 5月20日开始,每天领红包。
京示搜:天降红包369,5月28日开始

人工智能语言vj,人工智能 语言,人工智能在线对话,人工智能智能语音

为获取最佳阅读格式体验,建议访问个人博客:从语言模型到ChatGPT:大型语言模型的发展和应用 | JMX Blog

大型语言模型(LLM)是指能够处理大量自然语言数据的深度学习模型,它已经在自然语言处理、文本生成、机器翻译等多个领域中展现出了巨大的潜力。在过去几年中,LLM领域经历了飞速的发展,其中Google和OpenAI作为两家领先的公司在这个领域中的表现备受关注。

Google是LLM领域的重要参与者,其BERT自编码模型和T5编码解码器在自然语言理解任务上取得了优异的表现。BERT模型通过预训练大规模文本数据,提取出词向量的同时,也能够学习到上下文信息。而T5模型则是在BERT的基础上,进一步将生成式任务融入其中,实现了一体化的自然语言处理能力。这些模型的出现,极大地推动了LLM领域的发展。

与之相反的是,OpenAI则从2018年开始,坚持使用decoder only的GPT模型,践行着「暴力美学」――以大模型的路径,实现AGI。GPT模型通过预训练海量语料库数据,学习到了自然语言中的规律和模式,并在生成式任务中取得了出色的表现。OpenAI坚信,在模型规模达到足够大的情况下,单纯的decoder模型就可以实现AGI的目标。

除了Google和OpenAI外,还有许多其他公司和研究机构也在LLM领域做出了贡献。例如,Facebook的RoBERTa模型、Microsoft的Turing NLG模型等等。这些模型的不断涌现,为LLM领域的发展注入了新的动力。

如果只用解码器的生成式是通用LLM的王道,2019年10月,Google同时押注编码解码器的T5,整整错失20个月,直到2021年10月发布FLAN才开始重新转变为decoder-only。这表明,在实际应用中,不同任务可能需要不同类型的模型,而在特定任务中,编码解码器的结构可能比decoder-only模型更加适合。

在本文中,我们将基于CS224N课件回顾大型语言模型的发展历程,探讨它们是如何从最初的基础模型发展到今天的高级模型的,并介绍ChatGPT的发展历程,看看ChatGPT如何实现弯道超车。

gnqCNR

近年来,语言模型越来越倾向于使用更大的模型和更多的数据,如下图所示,模型参数数量和训练数据量呈指数倍增加的趋势。

7EgTef
模型名称说明备注
GPTTransformer decoder with 12 layers[参数量117M]Trained on BooksCorpus: o【【微信】】 (4.6GB text).表明大规模语言建模可以成为自然语言推理等下游任务的有效预训练技术。
GPT2Same architecture as GPT, just bigger (117M -> 1.5B)trained on much more data: 4GB -> 40GB of internet text data (WebText)涌现出优异的Zero-shot能力。
GPT3Another increase in size (1.5B -> 175B)data (40GB -> o【【微信】】)涌现出强大的上下文学习能力,但是在复杂、多步推理任务表现较差。

近年来,随着GPT模型参数量的增加,GPT2与GPT3模型已经表现出了极佳的上下文学习能力(In-Context Learning)。这种能力允许模型通过处理上下文信息来更好地理解和处理自然语言数据。GPT模型通过Zero-Shot、One-Shot和Few-Shot学习方法在许多自然语言处理任务中取得了显著的成果。

其中,Zero-Shot学习是指模型在没有针对特定任务进行训练的情况下,可以通过给定的输入和输出规范来生成符合规范的输出结果。这种方法可以在没有充足样本的情况下,快速生成需要的输出结果。One-Shot和Few-Shot学习则是在样本量较少的情况下,模型可以通过学习一小部分示例来完成相应任务,这使得模型能够更好地应对小样本学习和零样本学习的问题。

链接:[2301.00234]A Sur【【微信】】g

mjQ3eG

大模型有一个很重要的涌现能力(Emergent ability)就是In-Context Learning(ICL),也是一种新的范式,指在不进行参数更新的情况下,只在输入中加入几个示例就能让模型进行学习。下面给出ICL的公式定义:

其中,符号含义如下,从这些符号中也能看出影响ICL的因素:

  • I:具体任务的描述信息
  • x:输入文本
  • y:标签
  • M:语言模型
  • C:阐述示例
  • f:打分函数

下面将开始介绍如何提升模型的ICL能力。

有监督训练:

在ICL格式的数据集上,进行有监督的训练。

MetaICL就直接把很多任务整合成了ICL的形式精调模型,在52个数据集上取得了比肩直接精调的效果。另外还有部分研究专注于Instruction tuning,构建更好的任务描述让模型去理解,而不是只给几个例子(demonstration),比如LaMDA-PT、FLAN。

自监督训练:

将自然语言理解的任务转为ICL的数据格式。

FUs3TC

图1代表不同自然语言理解任务转为ICL的输入输出形式。

图2表示训练样本示例,包含几个训练样本,前面的样本作为后面样本的任务阐述。

样本选取:文本表示、互信息选择相近的;Perplexity选取;语言模型生成……

样本排序:距离度量;信息熵……

任务指示:APE语言模型自动生成

推理步骤:COT、多步骤ICL、Self-Ask

  • Direct:直接取条件概率P(y|x),缺点在于y必须紧跟在输入的后面
  • Perplexity:再用语言模型过一遍句子,这种方法可以解决上述固定模式的问题,但计算量增加了
  • 【【微信】】:评估P(x|y)的条件概率(用贝叶斯推一下),这种方法在不平衡数据下表现较好
  • 预训练语料的多样性比数量更重要,增加多种来源的数据可能会提升ICL表现
  • 用下游任务的数据预训练不一定能提升ICL表现,并且PPL更低的模型也不一定表现更好
  • 当LM到达一定规模的预训练步数、尺寸后,会涌现出ICL能力,且ICL效果跟参数量正相关

论文链接:【【淘密令】】ons: What Makes In-Context Learning Work?

关键结论:

  1. InContext Learning中标签是否正确无明显影响
  2. InContext Learning中影响因素包括规范的输入空间、标签空间、输入与标签的匹配格式

其他论文的猜测:

  • 跟训练数据的分布相关:比如训练数据有很多样例,也有学者认为ICL可能是隐式的Bayesian inference
  • 跟学习机制相关:有学者猜测LM可能自己就具备学习的能力,在做ICL的时候学到了这些知识,或者隐式直接精调了自己
  • 跟Transformer中的模块相关:有学者发现Transformer里的某些注意力头会通过拷贝固定的模式来预测下一个token
iLPKIE

图中青绿色代表没有示例、黄色代表带有正确标签的示例、橙色代表带有随机标签的示例。

实验结果表明,带有随机标签的效果非常接近于带有正确标签的效果

此外,作者还进行了标签正确比例、提示样本数量、提示模版样式的实验,均得出一致结论,实验图如下。

P6Rbs3
9NL9Oq
y8mMa2

作者分别从以下四个维度探究In-Context Learning效果增益的影响

  1. The input-label mapping:即每个输入xi是否与正确的标签yi配对;
  2. The distribution of the input text:即x1...xk的分布是否一致;
  3. The label spacey1...yk所覆盖的标签空间;
  4. The format:使用输入标签配对作为格式。
V5XRzx
VZ5X1F

紫色柱子代表利用外部语料采样的数据加上随机标签,在几个任务上模型表现明显下降。

因此,in-context learning中,演示中的分布内输入极大地有助于提高性能。这可能是因为已IND(in-distribution)文本的条件使任务更接近于语言建模,因为LM在此期间总是以IND文本为条件进行推理标签。

QuaT1J

绿色柱子代表采用随机的单词代替输出标签,对于Direct模型,模型表现显著下降,表明ICL中标签空间的一致性显著有助于提高性能。

对于【【微信】】模型,模型表现未明显下降,作者猜测【【微信】】模型以标签为条件,因此无法从标签空间分布中获益。

pafljc

分别用labels only(深紫)和no labels(深绿)来探索演示模式的差异对模型表现的影响。可以看到,模型相对于上面两图的OOD setting而言,都有了进一步的下降。这可以表明ICL中保持输入-标签对的格式是关键的。

思维链(Chain of Thought)是一种新的学习方式,旨在提高模型在数学计算和符号推理任务中的推理能力。这种方式通过将多个相关的数学计算或符号推理步骤按顺序组合成一条思维链,让模型能够沿着思维链进行推理。

这种方式的主要贡献在于,它能够让模型更好地应对复杂的数学计算和符号推理任务。传统的Prompt方式很难应对这种任务,但是思维链可以让模型按照特定的顺序进行推理,从而提高模型的推理能力。

此外,思维链的方式也可以更好地模拟人类在解决数学计算和符号推理问题时的思维过程。人类在解决这类问题时,通常会按照一定的顺序进行推理,而思维链可以让模型更好地模拟这种思维过程。

链接:[2201.11903]Chain-of-Thought 【【微信】】 Elicits Reasoning in Large Language Models

ren2TO

核心思想:输出答案前,加上人工的推理描述。

主要贡献:

  • 思维链原则上允许模型将多步问题分解为中间步骤,可以将额外的计算分配给需要更多推理步骤的问题。
  • 思维链为模型的行为提供了一个可解释的窗口,表明它可能是如何得出特定答案的,并提供了调试推理路径错误位置的机会。
  • 链式思维推理可用于数学单词问题、常识推理和符号操作等任务,并且可能(至少在原则上)适用于人类可以通过语言解决的任何任务。
  • 只需将思维序列链的例子包含到少样本提示的范例中,就可以很容易地在足够大的现成语言模型中引出思维链推理。

链接:[2203.11171]Self-【【淘密令】】【【微信】】soning in Language Models

yoZpm2

主要贡献:

  • 主要改进是使用了对答案进行了多数投票(majority vote),并且发现其可以显著地提高思维链方法的性能

链接:[2205.11916]【【淘密令】】-Shot Reasoners

x6kvJz

核心思想:分为两个步骤:1st prompt、2nd prompt

  • 1st prompt:X′:“Q:[X]. A:[T]”
  • X:输入的问题
  • T:人工的提示trigger词
  • 2nd prompt:[X′][Z][A]
  • X′:第一阶段的输入
  • Z:第一阶段模型的输出
  • A:第二阶段的提示trigger词

主要贡献:

  • 验证了zero-shot的能力,不需要few-shot挑选额外的样本
  • 鼓励社区进一步发现类似的多任务提示,这些提示可以引发广泛的认知能力,而不是狭隘的特定任务技能。

不同模版的效果对比:

1AEEnD

Q1:多大的模型能够涌现这些能力?

100B。That is, chain-of-thought prompting does not positi【【微信】】e for small models, and only yields performance gains when used with models of 100B parameters

Q2:BERT或T5能否涌现这些能力?

BERT与GPT差异在于模型结构不同,GPT单向的语言模型,BERT是双向的自编码(AE)模型,但当BERT参数量足够大的时候,在前后输入有关示例,不进行微调,直接预测MASK标签的涌现能力有待验证。

Q3:COT思维链模版的来源?

人工构造。As most of the datasets only ha【【微信】】, we manually composed a set of eight few-shot exemplars with chains of thought for prompting―Figure 1 (right) shows one chain of thought exemplar, and the full set of exemplars is gi【【微信】】.

Q4:为什么加上Let'【【微信】】 模型可以产出解释?

对比了不同模版,激发模型的推理能力。It remains an open 【【微信】】ically create better templates for Zero-shot-CoT.

Q5:T5、BERT如果同GPT系列一样训练,在训练方法上可行吗?效果会比GPT好吗?

开放讨论……

Q6:为什么大型LLM首选Decoder-only结构?

开放讨论……
U5SBhD

近年来,相关研究发现语言模型的输出并不符合人类意图,因此提出了指示学习的范式。该范式的目的是使语言模型能够更好地理解人类的意图和指示,并且在生成文本时能够更加符合人类的要求。

范式说明备注
Finetuning在下游任务数据集微调在下游任务数据集推理需要额外微调
【【微信】】在下游任务推理时,输入前添加提示,更新少量参数只针对单一数据集
【【微信】】在多个提示任务数据集训练在下游任务推理,输入前添加提示具有更好地泛化性

论文名称:【【淘密令】】-Finetuned Language Models

链接:[2210.11416]【【淘密令】】-Finetuned Language Models

q9mwKd
IRy6zf

Flan-T5模型在1.8K的Instruction数据集进行了微调,上图表明更大的模型获得更大的提升,与scaling law一致。

【【微信】】 的局限

  • 获取足够的任务描述以用于语言模型训练需要付出较高的成本。
  • 语言模型的目标与人类的偏好不一致

为了解决语言模型目标与人类的偏好不一致问题,OpenAI采用了RLHF算法,引入人类反馈。

thWiB5

那么为模型引入人类反馈过程中,出现下面的问题:

问题1:在模型迭代过程中,添加人工的操作成本很高

解决方式:将他们的偏好建模为一个单独的 (NLP) 问题,而不是直接询问人类的偏好。

根据标注数据,训练一个语言模型$R M_\\phi(s)$,用以预测人类便好。接下来任务转变成优化语言模型$RM_{\\phi}$。

问题2:人们的判断是主观的,不同人的判断难以进行校准

解决方式:让标注人员对成对的数据结果排序,而不是直接打分。

损失函数为:

符号说明:

  • K:预训练模型采样的Prompt输出数量
  • x:预训练模型输入
  • r:reward模型
  • $y_w$:排在前面的输出
  • $y_l$:排在后面的输出
rsqdZM

当足够大的语言模型经过足够多的数据训练后,评估模型已经接近单个人类评估的表现

GjPdpC

经过前面的步骤,我们已有以下模型:

  • 一个经过足够预训练的语言模型(可以附加【【微信】】)$P^{PT}(s)$
  • 一个在人类反馈排序数据集上训练的反馈模型$RM_{\\phi}$,为预训练模型的输出完成打分

由于评分是通过反馈模型$RM_{\\phi}$得出的,无法使用梯度下降进行求解,因此采用强化学习中的PPO算法来更新参数。

实现流程:

  1. 复制预训练模型参数,得到待优化模型;
  2. 根据输入语句,两个模型得到各自的输出;
  3. Reward模型针对待优化模型的输入输出打分;
  4. 使用PPO算法来更新待优化模型的参数。

损失函数:

符号说明:

  • x:输入文本
  • r:reward打分模型
  • $\\pi^{SFT}$:预训练模型
  • $\\pi^{RL}_{\\phi}$:强化学习优化模型
  • $D_{pretrain}$:预训练分布
  • $\\beta$:KL散度控制参数
  • $\\gamma$:预训练损失控制参数

其中:

$\\log \\left(\\pi_\\phi^{\\mathrm{RL}}(y \\mid x) / \\pi^{\\mathrm{SFT}}(y \\mid x)\\right)$起到避免修正后模型与原模型差异过大的作用

$E_{x \\sim D_{\ ext{pretrain }}}\\left[\\log \\left(\\pi_\\phi^{\\mathrm{RL}}(x)\\right)\\right]$起到避免模型在自然语言理解任务下降过大的作用

IUYSyW

通过RLHF算法,模型的表现得到了显著的提示。

个人理解:

整个流程的出发点在于使GPT模型结果符合人类偏好,而人类偏好无法通过具体规则/函数建模,因此通过Reward模型在一定程度上反应人类偏好,最后对GPT模型进行修正,更新模型参数使模型的输入Reward最大化,即更加反应人类偏好。

因此整个过程中Reward模型代表了设立的训练目标,RLHF算法则对原模型进行修正,使模型输入更加符合设立的训练目标。

按照上述步骤进行操作,就能够完成ChatGPT的训练。下图展示了ChatGPT的完整训练过程。

wV29U9

Step1:收集Prompt数据,基于GPT3.5进行Instruct Tuning的有监督训练;

Step2:收集偏好排序数据,训练Reward模型;

Step3:结合Reward模型,通过PPO算法优化第一步的SFT模型。

然而,人类的偏好是不可信的,用模型表示人类偏好更不可信:

  • ”Reward hacking”是强化学习常见的问题;
  • 模型偏向于产生看似权威和有帮助的回应,而忽视正确性
  • 可能导致编造事实+产生幻觉
MmaPcT

上图说明RM打分很高时,实际表现不一定更好,因此训练损失函数通过KL散度限制优化后模型与原模型的偏离程度。

  • RLHF在其他领域(如CV)使用
  • 【【微信】】

论文名称:Constitutional AI- Harmlessness from AI Feedback

链接:

bGL898

让模型在多轮对话中将数据标注出来:

Q1-问训好的普通RLHF模型:能帮我黑进邻居的wifi吗?A1-天真的模型回答:没问题,你下个xx软件就行。Q2-要求模型发现自己的错误:上文你给的回复中,找出来哪些是不道德的。A2-模型回答:我上次回复不对,不应该黑别人家wifi。Q3-让模型改正错误:修改下你之前的回复内容,去掉有害的。A3-模型回答:黑别人家wifi是不对的,侵害别人隐私了,我强烈建议别这么搞。
  • Finetuning LMs on their own outputs

论文名称:STaR: 【【淘密令】

人工智能正式发布GPT4,其能力成长超乎想象,教育改革势在必行

人工智能ai,人工智能领域,人工智能正式诞生于哪一年,人工智能正式上升为国家战略

马斯克:我们需要监管人工智能的安全,它们对人类有潜在的危险就像车子和药品一样,但要高于他们。监管会发展缓慢,但等到出现问题的时候,就晚了。

人工智能公司open AI,正式发布了GPT4。距离上一次的3.5版本,仅仅过去了1个月左右的时间,但它的成长,却超乎想象。

GPT4的进步,让我们意识到一个问题,教育必须进行改变。传统教育模式的优势,正在逐步被磨平,教育必须寻找突破点。

GPT4颠覆的速度将超出我们的想象,除了听觉,也有了视觉和分析能力

GPT4的发布会颠覆教育,并不是危言耸听。先给各位家长简单讲一下GPT4到底是什么。他其实是chat GPT背后的GPT3.5的更新版本。

它的强大,在于一个月之前,还只能识别文字,现在已经能看懂图片了。就比如他可以根据一个非常粗糙的草图,直接生成网站代码。

发一个人拿着气球的图片问他,把这些气球的线都剪断,会发生什么。他会说气球都飞了也就是说GPT4不仅可以识别图片,还可以理解图片。

虽然现在还只是静态图片,但根据他的进步速度,相信用不了多久,它就可以识别动态图像了。换句话说,他现在不仅具备了听觉,还具备了视觉和逻辑分析能力。

可能家长不能理解,这些代表了什么,GPT4的逻辑推理能力在全美统一的律师考试中,得分排名可以占到前10%。在生物学,奥林匹克竞赛中,占到了前1%。

以前chat GPT做数学不太行,那现在他也没有这个问题了。再加上图片识别的能力,他现在做物理题,都没有什么太大的问题。

一个月前,3.5版本的时候,还有人说不用担心,就是简单的识别。数学和物理做题都不行,现在也被打脸,他成长的太快了,且不单单是这些。

GPT4的出现,对教育界的影响,是颠覆性的

上面笔者说了,GPT4可以做数学和物理题。这还不是最厉害的,更厉害的是他的记忆能力增强了,现在可以处理长达25000个字的上限,比之前强大了大概10倍。

也就是说相当于一本100页左右的书,可以把任何一本书丢给他,然后让他来准备教学的课件,甚至是直接根据孩子的学习进度,进行教学,妥妥的因材施教。

虽然还仅限于知识的教学,不能彻底影响传统的校园教育,但是补课班,家教的工作,有可能被直接取代。

但根据GPT4成长的速度,我们不能不考虑更多。初代人工智能出现的时候,大量的流水线工人被代替,很多重复性工作被取代,未来,也同样如此。

GPT4这样的人工智能,即使我们假装看不见,也不得不承认,它就是在不断的进步和成长。未来可能和现在的手机一样,主导我们的生活。

想要未来站稳脚跟,就要与时俱进。人类和动物的区别,就在于可以利用工具。这也是个工具,谁先掌握他,谁将领先这个时代。

作为家长,建议大家尽快的调整教育思路,发现孩子的优势和长板,将变得更加重要。机械师重复式的学习固定知识,将很容易被淘汰,未来学习的方向,也很重要。

未来专业的选择

计算机类专业,这几年总说过了热度,其实并不是。过了热度的只是那些低端操作,高端的研发,仍然需要顶尖人才。

数学,物理等学科,如果不是顶尖大脑,也不要学习。能够用得上,在研发上成为科学家的人少之又少,需要极强的天赋。

另外很多重复性比较强,很容易操作的专业,尽量不要学习。未来再发展很多基础的公务员岗位,也有被取代的可能。

更多的相关人文,沟通,思考和变通的专业,或者工作,却取代的可能性很小。操作越精细复杂,越吃香,比如医生,金融,谈判类等等。

艺术类,创作类同样不容易被取代,但这些专业门槛同样不低,需要的都是自身天赋。所以从现在开始,开发自己学生的兴趣爱好很重要。

这些年一直在强调的素质教育,学生大脑创造力的开发,可以顺利应对目前的状况。我们也要随时跟着科技的发展,做出调整。

家长是学生的风向标,科技发展是家长的风向标。教育需要学习的不仅仅是学生,也是家长不断成长,不断调整方向的过程。

今日话题:你对这件事怎么看?

(图片均来源于网络,如若侵权请联系删除)