隋唐演义

隋唐演义

aigc 人工智能下一个风口 aigc人工智能

双十一 0

手机淘宝搜:天降红包55 5月20日开始,每天领红包。
京示搜:天降红包369,5月28日开始


一、ChatGPT 开启 AI 新纪元,指明 NLP 生成领域的技 术方向

ChatGPT 指明了 NLP 生成领域的技术方向。预训练语言模型对于 NLP 理解领域以及生 成领域的问题都是相当有效的,在过去几年里,发展出的主要模型有 Bert 和 GPT。从文本对 话的过程来看,理解到生成之间的连接是一个关键问题。然而,Bert 在 NLP 理解领域获得了 巨大的成功,但是在 NLP 生成领域却表现不佳,这是由于 Bert 训练时所采用的语言模型所 决定的。Bert 采用的是 DAE 语言模型,只学习到了词的上下文表征的能力,即理解语言的能 力,但没有学习到如何组织语言的能力。而 chatGPT 成功解决了这个问题,可以说 ChatGPT 指明了 NLP 生成领域的技术方向。

ChatGPT 从技术本源上加速 AIGC 发展。AIGC 的底层技术主要有 NLP、GAN、扩散模 型等,其中的代表就是语言生成中的 chatGPT 和图像生成中的扩散模型(Diffusion Model)。2022 年 8 月 StabilityAI 宣布开源 Stable Diffusion 模型,AI 图像生成成本迅速下降,并且能获 得惊人的高质量绘画作品,达到学习几年、十几年的画师同等水平。而 2022 年 11 月 OpenAI 发布的 chatGPT 虽然是自然语言生成领域的产品,但是可以生成 AI 绘画提示词,或生成调用 计算引擎,从而进一步加速 AI 绘画、AI 游戏、AI 音视频领域的应用。我们认为,ChatGPT 对 AIGC 发展的意义在于:一方面,GPT 作为 NLP 生成领域模型 的突破,将迅速解决 AI 文本生成、AI 代码生成等领域的痛点;另一方面,AI 文本生成、AI 代码生成作为 AI 音视频、游戏等其他领域的技术基础,其突破发展也将加速 AIGC 在音视频、 游戏等场景中的渗透(比如生成 AI 绘画提示词,或生成调用计算引擎)。

(一)ChatGPT 通过引入 RLHF 技术解决生成模型的核心问题, 大大提高类人成熟度

ChatGPT 是在 GPT 3.5 大语言模型(LLM,即 Large Language Model)的基础上,加入“基 于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)”来不断微调 (【【微信】】)预训练语言模型,使得 LLM 模型学会理解不同类型的命令指令,并通过多重标 准合理判断基于给定的 prompt 输入指令,输出的是否为优质信息(这些标准包括:富含信息、 内容丰富、对用户有帮助、无害、不包含歧视信息等)。因此,ChatGPT 使得人机对话更加人 性化,更富有逻辑性,大大提高了 AI 的类人成熟度。

ChatGPT 的技术发展路径:从 GPT-1 到 InstructGPT,数据量与参数量不断增加,模型 精度和语言能力提升。1)2018 年,在自然语言处理领域(NLP)刚兴起时,OpenAI 就推出了 初代 GPT,它的运行逻辑是:先通过无标签数据学习生成语言模型,并能够运用于一些与有监 督任务无关的 NLP 任务中。此后再根据特定的下游任务进行有监督的微调,提高其泛化能力。2)2019 年推出的 GPT-2 扩展了网络参数和数据集,进行多任务学习,可以在数据量足够丰富 且模型容量足够大时,通过训练语言模型就能够完成有监督学习的任务。3)对比 GPT-2,2020 年推出的 GPT-3 最显著的特征是庞大的数据量和参数投入,整体训练过程耗资 1200 万美元, 投入数据量达上万亿,模型参数量达到 1750 亿。GPT-3 延续了前两代 GPT 的技术架构,但改 变了“大规模数据集预训练+下游数据标注微调”的方式,采用情境学习(in-context learning)来 提高模型对话输出的性能。GPT-3 的规模和语言能力几乎是最强大的。它能在不做微调的情况下,在一些传统的 NLP 任务中表现得更好,包括实现闭卷问答、模式解析、纯语言建模、机 器翻译等;在新的领域,GPT-3 将 NLP 的应用扩展到缺乏足够训练数据的领域,例如在开发 程序代码、文章生成和信息检索领域取得了实质性的进展。然而,GPT-3 在推理和理解能力上 还有较长的路要走,在自然语言推理(NLI)任务中表现不佳。

ChatGPT 在 InstructGPT 模型上做改进,实现更好地遵循用户意图、更少的虚假信息。OpenAI在2022年3月发布了InstructGPT。该语言模型通过“基于人类反馈的强化学习(RLHF) 和监督学习”来提高输出质量。虽然 InstructGPT 的参数量仅为 13 亿左右,相比于 GPT-3 缩小 了 100 倍以上;但在遵循指令方面,能够更好地遵循用户意图,将有害的、不真实或者有偏差 的信息输出最小化。在优化的模型上,ChatGPT 基于 InstructGPT 进一步改进,在模型结构和 训练流程上遵循上述方式,但收集和标注数据的方式上发生了变化,通过采取监督学习的方式 让模型学习人类排序的方式。

(二)ChatGPT 商业化规划及仍需讨论的问题

ChatGPT 成为史上最快达到 1 亿月活跃用户的应用。ChatGPT 在 1 月达到 1 亿月活跃用 户,平均每天有 1300 多万访客。目前 OpenAI 已推出每月 20 美元(约合 135 人民币)的 ChatGPT 用户个人订阅计划,即使在软件的使用高峰时段,订阅用户也可以优先使用 AI 聊天机器人。

在 【【微信】】 发布的 2022 年新兴技术成熟度曲线中,生成性 AI 处于技术萌芽期并加速发 展中。【【微信】】 将生成性 AI 列为 2022 年五大影响力技术之一,预测到 2025 年生成性 AI 所 创造的数据可占到所有已生产数据的 10%。

ChatGPT 的能力目前几乎可以涵盖各个自然语言交互领域,例如聊天机器人、对话系统、 智能客服、信息检索、主题建模、文本生成和总结、NLP 作为服务的翻译、转录、总结等等, 未来应用领域将面向蓝海。例如,在聊天机器人领域,目前 ChatGPT 已经能基本满足用户的 提供个性化需求和信息提供服务;在需要智能客服的电商、金融、医疗、教育、政务等垂直领 域等,ChatGPT 能够结合行业特点和需求,构建自动应答系统,为客户提供快速、准确的问题 解答。除此外,在传媒、娱乐、设计和影视领域,ChatGPT 能够协助完成一些较低层次的任务, 包括文稿生成、采访助手、摘要总结等,或将提高行业的运行效率。

ChatGPT 存在的缺陷之一:目前 ChatGPT 在精准性、真实性、重复率和依赖性等问题 上尚待改善。第一、由于技术实现的问题,ChatGPT 会不可避免地写出一些似是而非、或者荒 谬的答案,这将导致植入虚假数据和误导用户的风险。ChatGPT 依然没有完全克服大型语言模 型(LLM)的这一常见缺点;第二、在较长的会话中,由于训练数据的偏差和过度修正,ChatGPT 会过度强调某些短语或者句子,导致重复性高的问题;第三、ChatGPT 的强大能力依赖语料库、 数据量的抓取和复杂的训练过程。ChatGPT 模型依赖于大规模离线语料进行训练,往往不能充 分接受并采用在线提供的即时信息,难以理解对话中提及的因果关系,也无法基于已有信息进 行推测,这距离人类举一反三的能力相差较远。

ChatGPT 存在的缺陷之二:其应用过程中安全性、伦理约束、权责界定以及知识产权等 相关法律问题尚未解决。一方面,由于 RLFH 并不能完全避免 ChatGPT 训练库中学习到的不 道德或有偏见的回答,也会导致在模糊提示或引导回答的过程中让 ChatGPT 输出一些有害信 息,导致输出结果的安全性降低,有可能产生权责无法界定的法律问题。另一方面,在创造性、 创作伦理和知识产权等方面并未形成有效界定。在数据挖掘、大规模计算、统计、多线程工作 等数据处理分析领域,人工智能有着人类不可比拟的优势,但是以“创新和感知”为基础的创造 过程是机器学习和模型难以训练的。目前 ChatGPT 能够在用户的引导下快速生成小说、诗歌、 散文、编程等需要创造力的内容,或许将对创作者和以版权为基础的行业造成冲击。文本生成 的过程是基于数据库内容的学习,这是否会构成对被抓取作品的侵权,ChatGPT 生成的文本内 容是否具有著作权,是否属于该用户等一系列问题的答案尚不明确。

(三)全球巨头争相追赶,与 ChatGPT 水平尚存一定差距

国外公司中,谷歌发布的聊天机器人 Bard 具有与 ChatGPT 接近的技术水平,可能相差 半年左右。2023 年 2 月 6 日,Google CEO 发布了与 ChatGPT 对标的产品 Bard。Bard 是基于 由 Google 于两年前就开始的 LaMDA(Language Model for Dialogue Applications,用于对话应 用的语言模型)模型的轻量级版本。LaMDA 和 GPT-3 本质上是非常类似的模型,都是使用 Transformer 架构的大语言模型配以 RLHF,已公开的 LaMDA 最大的版本是 1370 亿参数的 模型,比 GPT-3 略少。从谷歌 22 年发布的 LaMDA 的论文来看,LaMDA 关注三个关键目标:质量、安全和凭据,从这三个关键目标来看的话,Google 相比于 OpenAI 还是谨慎了很多, 这可能也是 Bard 迟迟未推出的原因。国内公司中,百度、华为、字节跳动、阿里、腾讯等巨头均在大模型方向布局,整体发展 水平与 ChatGPT 相差大概一到两年左右,约达到接近 GPT-3 的水平。其中,百度进展比较突 出,百度的文心一言应用是百度基于文心大模型技术推出的生成式对话产品,将于 2023 年 3 月完成内测,面向公众开放。文心大模型的参数量已经达到 2600 亿,已经超过 GPT-3 水平。从 GPT 模型发展三要素算力、数据、模型来看,国内巨头与 ChatGPT 的主要差距体现在模型 结构的设计上,由于 GPT3.5 缺少相关论文,也没有开源,国内在代码的训练及推理上仍缺少 积累。

二、AIGC 多场景应用处于爆发前夜,千亿市场打开

(一)AIGC 发展痛点逐步解除,亟待爆发

AIGC 并非新兴概念,只是过往受限于优质训练数据不足、高额的算力成本或是模型算法 难题,AIGC 发展较慢,仅限于实验范围。在人工智能尚不具备完整表达和生成内容能力的时 期,人工智能生成内容仅能用于简单的 AI 问答和聊天机器人领域,受限于模型算法,生成内 容没有创新,也较为呆板。但随着算力成本下降、数据形态和数量更加丰富,在不同领域 AIGC 都得到了飞速发展。

1. AI 文本生成领域:痛点在于上下文关联、自然语言生成的能力

文本生成领域是 AIGC 最早触及的领域。除了较早进行探索的智能客服和聊天机器人领 域,早期文本生成主要应用于辅助写作或者结构化写作。此前的文本生成一直面临的巨大挑战 在于:(1)上下文关联能力;(2)自然语言生成能力;(3)逻辑能力。由于传统的聊天机 器人采用“基于模板”或者“基于规则”的算法,开发人员通过预设一些较为固定的规则和模板后, AI 根据用户输入的内容在已有模板中进行认知识别和匹配,然后生成回复。这种方法效率高、 训练难度较低,但是训练后的模型缺乏普适性和灵活度,且难以支持复杂程度较高的会话任务, 也不能进行上文记忆。因此人们在与传统聊天机器人对话时会感觉到“答非所问”、“车轮式对 话”。对于通用性内容的文本生成来说,语言流畅性、思维深度和原创性是评价文章内容的标准。人工智能输出文字的本质在于计算机语言对于人类自然语言的模拟,创造来源于人工智能基 于逻辑的计算和判断,此前人工智能无法生成流畅文本的重要原因在于训练数据的质量和数量都较小。GPT 模型的“有监督微调”和“对齐”的技术架构提高了模型对数据的理解能力,也相 应提高了结果匹配精度,在语句搭配的选择上更具优势,因此生成文本的可读性有了大幅提升。

2. AI 绘画领域:痛点在于高额的算力成本

AI 学习绘画的实质过程是通过对已有画作的训练数据,通过模型和参数迭代输出有规律 的像素组合。由于图片所包含的信息量远高于文字包含的信息量,像素点位置、色彩、数量等 共同组成庞大的参数组,因此深度学习该参数组需要足量的算力。目前 AI 绘画根据文字提示 输出图片需要经历两个过程:理解文字提示所包含的信息,再匹配生成相应的图像。此前一直 难以发展的原因在于:(1)绘画细节不足、分辨率低;(2)参数量过大导致渲染时间过长;(3)算力和内存不足。此后,新的深度学习模型 CLIP(Contrasti【【微信】】Training),通过优化采 样的方式将完成了“文字-图片”匹配的跨越,而计算机视觉模型 Diffusion 的模型降维优化降低 了对显卡的需求,加上算力成本的逐渐降低,AI 绘画应用迅速崛起。

3. AI 音视频、游戏等其他领域:需要 AI 文本生成和 AI 绘画提供技术基础

辅助 在 AI 文本生成和 AI 绘画有所发展的技术基础上,音频、视频、2/3D 建模、游戏等等领 域才逐步被 AI 所渗透。以音频领域为例,未来 AIGC 将在语音合成和音乐合成领域有所进展。但由于一段音频包括的数据量相较于文字和图片都更大,也更抽象,因此目前还难以找到很好 的训练方式。同理,以交互和实时反馈为基础的游戏领域也是如此。游戏制作过程中涉及的每 一个轮次在未来都将有相应的生成式 AI 模型发展,从 2/3D 建模、对话生成、对话语音封装等 等,需要前期在文字、图像和音频领域有坚实的技术积累。

(二)ChatGPT 助力,文本、代码、图像生成有望率先成熟,视 频、游戏紧随其后

大模型辅以新架构,推动 AIGC 进入杀手级应用涌现阶段。在 2015 年前,人工智能发展 以小模型为主导地位,能够较好地适应在垂直领域的分析任务,但是在通用交互相关的任务上, 由于表达和理解能力欠缺,无法完成生成类的任务。但随着计算机深度学习模型的进展,人们 开发出新型神经网络架构 transformer、扩散模型 diffusion 等新技术,同时算力成本降低,开发 人员才逐渐开始探索并训练大语言模型(Large Language Model,即大模型)。我们认为,ChatGPT 对 AIGC 发展的意义在于:一方面,GPT 作为 NLP 生成领域模型 的突破,将迅速解决 AI 文本生成、AI 代码生成等领域的痛点;另一方面,AI 文本生成、AI 代码生成作为 AI 音视频、游戏等其他领域的技术基础,其突破发展也将加速 AIGC 在音视频、 游戏等场景中的渗透(比如生成 AI 绘画提示词,或生成调用计算引擎)。

ChatGPT 成功的关键是人类反馈强化与奖励机制,其应用层的良好效果,为 AIGC 领域 提供了普适性的模型优化思路。目前内容生成领域还处于用户创作(UGC)或者 AI 辅助用户 创作(AIUGC)为主的阶段,但 ChatGPT 的底层技术已被逐渐迁移向以下领域:

(1)在文本生成领域,AI 在文章润色、拼写检查修改等辅助性写作领域的能力将更加稳 定,除此外,自然语言生成能力的提升赋予 AI 更好地完成结构化程度较高的文本初稿,例如 电子邮件、新闻等领域,甚至在一些非结构化的文章,例如社交媒体、广告营销、文学等领域 的创作也能提供帮助;理解归纳能力的提升将推动大量办公辅助类工具的落地,例如会议纪要、 文档翻译、笔记管理等,提高整体办公效率。

(2)在代码开发领域,基于上下文理解能力,AI 进行代码注释、代码补全或代码检查的 相关应用将有可能在短期内落地。虽然与文本生成的底层技术相类似,但是代码生成对 AI 工 具的稳定性、以及自然语言和代码的相互转换的精准性提出了更高的要求。目前已有海外公司 研发出稳定的 AI 辅助工具,可以实时显示代码示例并提供错误反馈。

(3)在智能问答领域,目前 AI 文本生成的技术已相对成熟,理解能力和表达能力的提升 突破了现有客服“回答千篇一律、答非所问”的情况。未来,从底层模型的微调和强化将使得模 型分化出不同的技能树,或将在“问题解决、服务效率和使用体验”等三个方面全面提升用户的 使用体验。

(4)在图像生成领域,目前 GPT 模型的图像生成能力相对弱于 Diffusion 模型,但是在 利用 GPT 生成文字提示的基础上,AI 可以根据扩散模型生成更优质的 AI 绘画作品。未来, 传统图片编辑能力将大幅提升,抠图、去除特定主体等技术将更加优化,AI 按照文字提示或 者示意图生成图片的能力将进一步提升。

(5)在视频、游戏和 3D 领域,所需底层技术更多,技术能力更加交叉,需要以目前已 有模型作为基础技术实现。以视频领域为例,视频是音频和图像的结合,语音合成目前已有所 探索,但是耗时和相似度还有所欠缺,要实现完全自然的人类语音的合成仍然需要时间的积累。目前对 AI 视频生成的探索中,应用场景、素材选择的限制仍然较多,在未来音频和图像领域 发展到更加成熟的阶段后,视频生成或许将拥有更大的自由度。

(三)AIGC 海外公司布局梳理

目前海外 AIGC 行业正呈现百花争艳的状态。根据 Leonis Capital 统计,截至 2022 年 12 月,海外对于生成式 AI 的风险投资从 2020 年约五亿美金增长到超过 22 亿美金,增长幅度超 过 400%。目前文本和绘画领域的技术成熟度较高,音视频领域、代码生成和更为复杂的多模 态生成领域目前底层技术原理已经基本具备,但还需要静候发展。

(四)AIGC 细分市场规模预测:2025 年有望百倍增长

目前,AIGC 所覆盖的领域基本属于 AI 软件与服务。根据 Statista 的预测数据,全球 AI 软件的市场规模将在 2025 年超过 1200 亿美元,2021 年到 2025 年的 CAGR 为 38.01%。在 AIGC 发展的推动下,未来人工智能市场规模将以更快的速度增长。

虽然目前 AIGC 已经涉及文字、图像、代码、语音、视频、3D、游戏等多种内容形式的生 成,但是每个领域的技术成熟度、底层技术难度均有差距,因此未来 AIGC 的渗透率将有所差 别。2021 年 AI 制作的比例仅占市场的 1%-2%左右,随着技术发展,我们预测,到 2025 年 AIGC 在网络文学领域、文本分析领域、绘画及图片领域、数字音乐领域技术将相对成熟,因 此渗透率分别为 70%/60%/60%/50%,网络视频领域、游戏领域由于技术原因渗透率相对较 低,分别约为 30%/25%。基于上述假设,我们分别对 AIGC 细分领域针对中国市场做 2025 年的市场规模预测,预 计 2025 年中国 AIGC 市场规模有望达到 1600 亿。

三、AIGC 产业链:基础层最先受益,中间层巨头占优

(一)AIGC 产业链结构及巨头布局

AIGC 产业链可大致分为上中下三层架构。第一层为基础层,以预训练模型为基础搭建的 AIGC 技术基础设施层,包括芯片、服务器等硬件提供商以及大模型技术提供商。第二层为中 间层,通过基础层的模型,进行特定训练,形成垂直化、场景化、定制化的应用工具。第三层 为应用层,即面向 C 端用户提供图像、语音、文字生成等各种 AIGC 的应用。鉴于大模型训练需要巨大的算力规模,基础层中的芯片、服务器等硬件提供商将最先受 益。而对于中间层来说,技术积累以及资金实力都是关键竞争力,因此我们认为科技巨头更具 有竞争优势。应用层中,可类比移动互联网时代,会爆发出很多杀手级应用,用户体验和模式 创新都将成为“杀手钳”。

(二)GPT 模型所需算力测算

GPT-3 训练所需算力:根据 【【微信】】 公布的论文附录,GPT-3 175B 共有 1746 亿个参数,训练该模型需要经过 3.14E+23 个浮点运算,总算力为 3640 PF-days。换言之,在每秒进行 1 万亿次浮点运算的计算 速度下,GPT-3 175B 需要耗时 364 天。

论文中表明,GPT-3 的模型训练是在微软提供的 【【微信】】 上完成的。由于微软与 【【微信】】 并未公布人才合作共建的超级计算机的硬件细节,未知其 V100 的运算成本效率,因此 【【微信】】 型号细节参考 【【微信】】 官网公布的 TESLA V100。其采用 【【微信】】 Volta 架构,带有 16GB 和 32GB 两种配置,单个 GPU 即可提供高达 100 个 CPU 的性能,训练吞吐量比使用 CPU 快 32 倍,推理吞吐量比使用 CPU 快 24 倍,配备 【【微信】】 的单台服务器可以取代数百台仅配 备通用 CPU 的服务器来处理传统的高性能计算和人工智能工作负载。

GPT-3 训练所需总成本:模型的算力需求几乎与参数量呈同比增长。单一 【【微信】】 芯片进行一次 GPT-3 13B 模 型的训练,大约需要 2144 天;进行一次 GPT-3 175B 模型的训练,大约需要 29120 天。由于 【【微信】】 官网公布的最快的 V100 深度学习性能达到 125 TFlops,按照 GPT-3 13B 模型的算力 需求 268 PF-days, 单个 【【微信】】 需要进行:268/0.125=2144 天的运算;同理,完成一次 GPT3 175B 运算的算力需求为 3640 PF-days,单个 【【微信】】 需要进行 29120 天的计算。GPT-3 13B 发展到 GPT-3 175B,参数量扩大 13.73 倍,算力需求扩大 13.58 倍,两者几乎同比增长。若以一个容量为 28 Tflops 的 【【微信】】 为例,完成 GPT-3 13B 和 GPT-3 175B 模型理论 上分别需要 26 个 GPU 年和 355 个 GPU 年的运算。根据 Cloud GPU Comparison 公布的数据, Microsoft Azure 的 V100 型号使用成本为$3.06/H, 我们测算 GPT-3 13B 训练总成本约为:$3.06 /H * 24 H/D * 365 D/Y * 26Y=$0.7 Million;同理,GPT-3 175B 训练总成本约为$ 9.5 Million。

GPT-3 运行所需芯片成本:除此外,根据 OpenAI 的白皮书,GPT-3 使用每个参数 16 位的半精度浮点变量,这说明 1750 亿参数至少需要有 175*4=700 GB 的空间才能存储(每个参数需要 4 个字节)。若以此 计算,相当于至少 22 块 32GB 内存的 Tesla 【【微信】】,每块约 9000 美元,则不计 RAM、 CPU、SSD 驱动器、电源等其他情况下,芯片成本在至少 20 万美元以上。

四、A 股相关公司介绍

1、浪潮信息――全球 AI 服务器龙头

技术发展:浪潮信息人工智能服务器的市占率位居全球第一,在中国市场份额连续五年保 持 50%以上。公司行业竞争力强劲,致力于十四五期间成为全球服务器龙头公司。根据 IDC 数 据显示, 2022 年,公司在全球服务器行业市占率排名第三,市占率分别为 9.9%;在国内服务 器行业,公司更是当之无愧的龙头厂商,2020 年市占率 35.6%,高于排名第二第三的华为和新 华三总和。业务布局:2 月 10 日,浪潮信息推出 AI 算力服务产品,将基于国内领先智算中心的算力 基础设施,为国内客


【与ChatGPT的有趣对话】Adobe国际认证含金量?

adobe国际认证证书有用吗含金量,adobe国际认证是什么,adobe国际认证难考吗,adobe国际认证证书考试内容
【与ChatGPT的有趣对话】Adobe国际认证含金量?

Adobe国际认证是一种专业的认证,它的含金量取决于考试的难度和认证的类别。Adobe国际认证让持证者拥有在职业范围内更多的可能性,并提高持证者的职业价值。

Adobe Certified Professional(以下简称:Adobe国际认证)培训认证体系,是Adobe公司CEO签发的权威国际认证体系,面向设计师、学生、教师及企业技能岗位的国际认证及培训体系,Adobe Certified Professional基于Αdobe核?技术及岗位实际应?操作能?的测评体系得到国际ISTE协会及ACE的认可。

全球128个国家均有开展,共19种语?版本,是国际上行业所认可的凭证。

2017年引进中国以来得到广大的行业及用户认可,被国内达内教育、中公教育、火星时代等众多知名IT培训机构及院校,作为视觉设计、平面设计等专业的培训及技能测评考核的依据及标准。