隋唐演义

隋唐演义

传媒ai化加速 ai赋能视频新商业价值

双十一 0

手机淘宝搜:天降红包55 5月20日开始,每天领红包。
京示搜:天降红包369,5月28日开始

传化传媒,传媒 media,传媒产业化,alg传媒公司

(报告出品方/作者:国联证券,郑磊、丁子然)

1 ChatGPT 引领技术革命,通用人工智能曙光将至

1.1 ChatGPT 破圈复盘:AI 显性化的三个阶段

我们从全球产业角度,复盘 AI 显性化的三个阶段。自 2022 年底 OpenAI 发布聊 天机器人 ChatGPT,以及背后 GPT3.5、GPT4 大模型的推出,新一轮技术变革的浪潮 从学术界、产业界向普通互联网用户依次破圈。我们将这一过程称作“AI 的显性化”, 主要分为三个阶段:

1)技术奇点出现。Ⅰ)22 年 11 月 ChatGPT 发布:OpenAI 基于 GPT3.5 大模型推 出对话聊天工具 ChatGPT,在文本生成的准确度、流畅度,长序列文本处理能力,可 扩展性等多方面都显著优于以往 AI 模型。Ⅱ)23 年 3 月 GPT4 发布:相较于 GPT3.5 版本,接入 GPT4 大模型的 ChatGPT 在文字对话内容的深度、广度层面均有提升;此 外,除了识别文字内容,GPT4 也支持图片内容的输入,多模态识别能力显著增强。

2)海外 C 端产品破圈。Ⅰ)ChatGPT 能力初步破圈:22 年 11 月 ChatGPT 发布 后,用户规模 5 天突破 100 万、两个月突破 1 亿,在学术论文、专业考试等 C 端应用 场景中初步破圈。23 年 2 月微软将 ChatGPT 接入搜索引擎 Bing,推动 Bing 移动端 DAU 单月环比增长 6 倍。Ⅱ)现象级应用诞生:3 月微软将 Office 全家桶接入 GPT4, 发布办公助手 Office 【【淘密令】】,有望撬动全球 14 亿用户规模。Ⅲ)下游生态全 面开启:3 月 27 日 OpenAI 允许第三方开发 ChatGPT Plugin 插件,第一批支持的包 括 Expedia、Instacart、Zapier 等酒旅、电商场景的头部应用。“插件”生态的放开 确立了 ChatGPT 的流量入口地位,AI 迎来“【【淘密令】】 时刻”,下游生态全面开启。

3)国内大厂跟进,大模型生态起步。自 22 年 11 月 ChatGPT 发布后,国内头部 科技、互联网公司随即跟进。3 月百度先后发布类 ChatGPT 的聊天机器人“文心一言”、 企业级平台“文心千帆”,对标海外 ChatGPT 生态。4 月阿里巴巴发布同类产品“通义 千问”,华为公布“盘古”大模型进展。腾讯、字节跳动等互联网大厂也成立了专门 的大模型攻坚团队,相关产品有望陆续发布。

1.2 ChatGPT 突破之处:通用人工智能的曙光

从前沿的研究和应用方向来看,AI(人工智能)主要有 NLP(自然语言处理)、CV (计算机视觉)两大领域,分别聚焦于对自然语言和图像进行分析、处理。其中, ChatGPT 及其背后的 GPT 系列模型带来的影响主要集中于 NLP 领域。因此,我们通过 复盘过去 10 年 NLP 领域的技术发展,来解答一个关键的问题:从技术角度看,ChatGPT 究竟是不是革命性的突破?

从技术角度复盘过去 10 年的 AI 发展历程,有四个重要的时间节点:

1)2017 年 Transformer 统一 NLP 研究范式。谷歌在著名论文《Attention Is All You Need》中推出 Transformer 架构,通过引入“自注意力”机制,极大拓展了 AI 模型在不同任务中的可迁移性。该论文发布 5 年内被引用超过 3.8 万次,统一了 NLP 的研究范式,后续也被广泛跨领域应用于 CV 场景。

2)2018 年谷歌、OpenAI 路线之争:完形填空 vs 文本生成。2018 年,谷歌、 OpenAI 基于 Transformer 框架,分别推出了 AI 模型 BERT 和 GPT-1。通俗来讲,二者 技术路线最主要的区别在于:预训练任务中,谷歌 BERT 主要使用“完形填空”的方 式,即随机遮盖一些文字,让 AI 模型通过上下文理解进行补全;而 GPT 则主要使用 “文本生成”的方式,即通过完全遮盖训练语料中的“下文”,训练模型基于“上文”, 逐字逐句地生成文本。从应用结果来看,谷歌 BERT 在文本分类、关键词提取等“自 然语言理解”类任务中的表现好于初代 GPT。而后续随着模型参数量的指数级提升, GPT 模型在翻译、写作、问答等“自然语言生成”类任务中的优势开始逐步显现。

3)2020 年 GPT3 优势初显,千亿参数量催生“涌现”效应。2020 年,OpenAI 推 出新的 AI 大模型 GPT-3,其参数量高达 1750 亿,相较上一代 GPT-2 的 15 亿高出一 百余倍。2020 年后,AI 大模型的“涌现”效应得到业内的广泛关注,即当参数量高 于特定量级后(一般认为千亿级别是门槛),再基于模型结构、训练方法的调整,AI 大模型的特定性能会出现指数级的提升,如能够准确回答未经过训练的问题。此后, 谷歌、Meta 等相继推出千亿参数大模型,而 GPT-3 的技术路径优势日益凸显。

4)2022-2023 年:ChatGPT 横空出世,技术路径再统一。2022 年 11 月,OpenAI 基于最新 AI 大模型 GPT-3.5,使用来自人类反馈的强化学习(RLHF)进行精调,发布 了聊天机器人 ChatGPT。经过广大 B 端、C 端用户的大规模测试,ChatGPT 在文本生 成场景中的通用性远超过谷歌 BARD 等同类应用。2023 年 3 月,OpenAI 发布 GPT-4, 使得 ChatGPT 的问答深度、广度,以及多模态识别能力进一步增强。至此,OpenAI 的 GPT 系列已全面领先于谷歌、Meta 等竞争对手,其技术路径的先进性得到充分验证。

我们认为,ChatGPT(及其背后的 GPT3.5、GPT4 大模型)的推出,对于人工智能 的发展具有三层重要意义:

1)统一技术路线,推动 AI 发展驶入“快车道”。复盘 NLP 发展路径可见,继 2017 年谷歌 Transformer 框架之后,NLP 大模型曾分支出以谷歌 BERT、OpenAI GPT 为主 的两大技术路径并各有拥趸。随着 GPT3.5、GPT4 在通用性文本生成领域的全面领先, 有望再次统一 LLMs(大型语言模型)的技术路径。在市场竞争的“鲶鱼效应”之下, 其他 AI 模型厂商有望逐步迁移至类 GPT 的技术路径,投入的算力、人力等资源规模 大幅增长,进而推动 AI 大模型整体的迭代速度加快、应用场景拓宽。

2)功能实现飞跃,推动 AI 产品层面的“显性化”。具体从功能上来看,ChatGPT 在两个层面实现了较大突破:1)通用性:与此前只能应用于特定场景的 AI 工具不同, ChatGPT 能够满足 B 端企业、C 端生活场景中的大多数语言交互需求。2)多模态:在 接入 GPT-4 之后,ChatGPT 新增了图片输入的能力,能够识别、分析专业的数据图表 和网络梗图,也能基于一张写有需求的图片生成网站源代码。ChatGPT 多模态能力的 初显,不仅提升了输入内容形式的自由度、提升用户体验;更为语言类大模型打开了 “用图像辅助认知世界”的新通路,推动模型认知能力的进一步提升。

3)终局预期提前,推动 AGI 可见度提升。3 月 22 日微软研究院发布 GPT-4 测评 论文《AGI 的火花:GPT-4 早期试验》,核心观点为:鉴于 GPT-4 能力的广度和深度, GPT-4 应该被合理视作 AGI(通用人工智能)的早期版本。AGI 是指具有一般人类智 慧,可以执行任何人类智力任务的机器智能。此前,AGI 作为人工智能研究领域的远 期愿景,预计实现的时间在 2050 年以后。而继 ChatGPT 推出之后,AI 大模型技术路 径的统一、功能上的飞跃,推动 AGI 终局的可见度提升,落地预期或从 2050 年大幅 提前。

因此,从技术角度看,ChatGPT(及其背后的 GPT3.5、GPT4 模型)在通用性和多 模态层面实现飞跃,统一了 NLP 研究的技术路径,从而使人工智能研究的终局(AGI) 预期大幅提前。进而回答本节最初的问题:从技术角度看,ChatGPT 毫无疑问是革命 性的突破。

1.3 ChatGPT 核心壁垒:算力、数据和工程能力

ChatGPT 的研发主要分为预训练(Pre-train)和精调(Fine-tune)两个环节。 其中:1)预训练:使用无标注、大规模的数据集,对模型进行预训练。2)精调:让 模型与专业的标注人员、AI 训练师进行交互,推动模型逐步学习人类通用的表达方 式和价值观,从而最终生成符合人类期望的回答。其中又可分为有监督精调 (Instruction Tuning)和强化学习训练(RLHF)两个环节。通俗地理解,如果将 AI 大模型类比于学生,那么模型的预训练就是通过广泛的通识性阅读,使学生具备初步 的文字理解能力;模型的精调就是“教学”的过程,其中使用优质教材的效果往往胜 过大量普通书籍。

我们从 ChatGPT 的主要技术环节,分析其核心壁垒所在:

1)算力资源:据 TrendForce 数据,以英伟达 A100 口径计算,ChatGPT 需要 2 万 块 GPU 来处理训练数据,随着 ChatGPT 的商用化,需要的 GPU 数量可能超过 3 万块。 目前国内 GPU 集群的存量资源有限,叠加美实体清单影响高端芯片采购受阻,导致对 于国内大模型厂商而言,模型的推理、部署、应用等环节的算力资源紧缺。但从长期 来看,国内 AI 大模型算力紧缺的问题有望得到缓解。从市场角度,算力资源本质上 是自由流通的商品,相较于模型技术、工程能力等硬性壁垒更易突破;从技术层面看, 大模型的研发、应用环节所需算力未来均有优化的空间。4 月 13 日微软推出大模型 训练工具 DeepSpeed-Chat,其中包括开源的 RLHF 框架,能基于单个 GPU 训练超过 130 亿参数的模型,训练速度提升 15 倍以上,垂类企业应用大模型的算力门槛有望大幅降低。

2)参数量:一般认为 1000 亿的参数量级是语言类大模型产生“涌现”现象的门 槛,GPT3 的训练参数量达 1750 亿,GPT4 参数量未公布。对于国内大模型厂商,尤其 是拥有丰富自有数据资源的互联网大厂而言,1000 亿的参数量级并非难以达到。目 前百度、华为、阿里等头部企业均已推出或发布千亿参数以上的 AI 大模型,但在性 能上仍和 ChatGPT 有较大差距。

3)数据集的质量:GPT3 的预训练数据集来自于 common crawl(网页爬虫聚合类 数据平台)、维基百科等标准化程度较高的公开数据库。目前国内 AI 大模型的预训练 数据集也以公开网页爬取的数据为主,再结合公司自有的行业数据进行训练。问题在 于,相较于英文,目前互联网上中文内容的规模和质量均存在较大差距。因此,国内 AI 大模型的预训练数据集中也以英文数据为主,使得在中文为主的用户使用环境中 产生较多的适配性问题。目前来看解决的方法包括:一是建立标准化、高质量的中文 语料库;二是加强 AI 大模型的翻译能力,使其生成的结果更符合中文用户的使用习 惯。

4)工程能力:包括预训练、精调等训练环节的执行能力和方法等,需要研发团 队通过长时间的经验积累、不断试错,再对模型结果进行调优,这也是 OpenAI 的 ChatGPT 目前领先于国内、乃至谷歌 BERT 等其他海外头部大模型的核心壁垒之一。 例如在精调过程中,OpenAI 使用极少量的高质量标注数据,显著提升了 GPT-3.5 的 应答能力。此外,中文和英文数据集在规模、质量等方面存在差距,这也需要额外的 工程能力去弥补,使得国产 AI 大模型更适用于中文的使用环境。

整体来看,对于国内AI大模型厂商,算力资源、数据质量和工程能力是类ChatGPT 大模型研发的核心壁垒所在。其中算力资源的紧缺主要受外部因素限制,长期有望得 到缓解;数据质量和工程能力的差距弥补需要资金、人才的大规模、长时间投入。在 2023 中国高层发展论坛上,360 创始人周鸿t表示,中国大语言模型技术水平和 GPT4 的差距在 2 到 3 年时间。

2 AI 产业化:大模型为入口,关注应用环节降本增效+新增量

2.1 AI 大模型:新的生产力工具和流量入口

ChatGPT 的应用:不只是聊天机器人。ChatGPT 从最初作为一款聊天机器人应用 被推出,到市场充分认识到其背后生态的战略意义,其间历经两个重要的时间节点: 1)AI 的“iPhone 时刻”:3 月 16 日微软发布 【【淘密令】】,通过 ChatGPT 和 Office 全家桶的结合,直观展现了 AI 赋能后 C 端用户体验的质变。从人机交互方式变革的 角度看,自 2007 年 iPhone 开创多点触控的交互时代后,以 ChatGPT 为代表的自然语 言交互有望引领新一次变革。2)AI 的“【【淘密令】】 时刻”:3 月 26 日 OpenAI 允许第 三方开发 ChatGPT 插件 Plugin,第一批支持 Expedia、Instacart、Zapier 等头部应 用,覆盖餐饮酒旅、语言培训、电商等多个生活场景。第三方插件生态的放开,可类 比于 2008 年 【【淘密令】】 的推出,而 ChatGPT 作为流量入口,商业化潜力持续推升。

从 ChatGPT 看大模型的战略意义:新的生产力工具,新的流量入口。

1)大模型是新的生产力工具。类 GPT 大模型在通用性和多模态两个层面实现了 飞跃,作为更高效的新一代生产力工具,能够帮助所有互联网企业提高生产效率。因 此,拥有大模型的厂商将在生态中扮演“卖水人”的角色,通过出售大模型接口的调 用权限、提供基于大模型的企业级服务等多种方式进行商业化变现。目前,OpenAI 基 于 ChatGPT,推出了收费服务 ChatGPT Plus,以及开放的应用程序编程接口 OpenAI API,前者订阅制收费(每月 20 美元),后者按调用的 token 数量收费。从需求侧来 看,OpenAI 推出的两项服务均供不应求,曾数次出现因访问量过大而暂停服务、或暂 停接收新用户的情况。

2)大模型是新的流量入口。微软 CEO 在 【【淘密令】】 发布会上提出:最通用的 人机交互方式将会是自然语言。我们复盘 TMT 行业的发展历程,发现从 PC 图形界面 到 iPhone 多点触控,每一次互联网范式的变革的背后,都是人机交互方式的升级带 来使用效率的提升。GPT3.5、GPT4 大模型在通用性层面的飞跃,使得基于自然语言对 话的人机交互方式成为可能,极大提升了用户与机器交互的自由度和使用效率。因此, 大模型的战略地位有望比拟操作系统,成为 iOS/安卓之后的新一代流量入口,一端 承接庞大的 B 端开发者需求,另一端触达万亿级别的 C 端消费者生态。目前,随着 ChatGPT Plugin 推出,大模型的第三方插件生态已然起步,商业化落地有望加速。

ChatGPT 推动流量“再分配”,移动互联网时代的竞争格局有望重塑。大模型作 为新的生产力工具和流量入口,有望重塑移动互联网时代的工具和应用,建立万亿规 模的下游应用生态。再考虑到大模型研发、使用过程中算力、技术、资金层面的高壁 垒,大模型厂商对于市场需求将会形成虹吸效应,相对于传统互联网大厂的竞争优势 将会越发显著。如微软旗下的浏览器 Bing 接入 ChatGPT 一个月后移动端 DAU 破亿, 有望对谷歌旗下 Chrome 浏览器 50%以上的市场份额形成挤压,动摇全球浏览器市场 “一超多强”的竞争格局。因此,大模型带来的生产力工具+流量入口价值,有望重 塑移动互联网时代的竞争格局。

谁在布局大模型:大厂和创业公司。此前,国内外头部互联网、科技公司均在 AI 大模型领域有所投入,但技术路线并不统一,模型的应用场景域也相对有限。在 ChatGPT 推出之后,国内外大厂快速跟进,在自身模型储备的基础上向 GPT 靠拢,并 相继发布类 ChatGPT 的文字聊天机器人产品,包括百度“文心一言”、阿里“通义千 问”、商汤“日日新”等。此外,部分中小型企业也看到了大模型带来的广阔商业化 空间、以及竞争格局重塑机会,其中多为 AI、互联网行业领军人物组建的创业公司, 包括美团联合创始人王慧文的“光年之外”、搜狗创始人王小川的“百川智能”等。

大模型+垂类数据,满足垂类企业的细分需求。相较于大模型厂商,垂类企业的 业务体量、技术和资源储备相对有限,但仍可以通过接入外部的大模型,实现经营效 率的提升、生产力边界的扩张。根据企业需求体量的不同进行划分: 1)对于小 B 和创业团队:可直接调用 ChatGPT 等大模型 API,以引导提示(prompt) 的形式输入需求,生成直接可用的文字、图片、代码等素材。如电商卖家可通过 ChatGPT、Stable Diffusion 等模型生成宣传素材、模特图片等。 2)对于大 B:可基于大模型接口、结合公司自有数据进行精调(fine-tune),得 到更加适用于自身业务场景的“新模型”。如海外 OTA 龙头 Expedia 基于自有的酒旅 数据对 ChatGPT 进行精调,生成了更适配 OTA 场景的客服机器人,能够与用户讨论旅 游、航班信息,并制定个性化的出行攻略。

垂类企业有望从两个方面受益于 AI 技术变革:一是在企业生产经营环节中降本 增效,二是带来收入端的新增量。从业务性质来看,业务场景线上化程度较高的企业, 受 AI 大模型的影响更大,其对 AI 工具的接受度也更高。因此,传媒互联网整体成为 AI 大模型率先落地的应用场景。我们从网文、图片、视频、游戏、广告营销、电商六 个细分领域的具体应用,解读 AI 大模型对于垂类企业的赋能效果。

2.2 AI+网文:创作效率提升,内容形式有望升维

1)降本增效:网文创作环节效率提升。在网文创作环节,网文平台通过提供 AI 编辑器,辅助作家进行创作,并提高编辑环节的工作效率。目前从头部网文平台的布 局来看,已使用谷歌 LaMDA、Word2Vec 等开源的文字类模型,核心功能除了识别错别 字和语病,帮助作者纠错;还能基于作者当前创作的内容、以及训练集里的内容库, 为作者提供可选的创作思路,帮助作者突破创作瓶颈。后续,随着国内 AI 大模型的 文字理解、生成能力接近 ChatGPT,网文写作中的人力占比有望进一步降低:作者仅 负责思考故事大纲,用关键词描述核心的背景、人物设定和剧情冲突,AI 编辑器即可 围绕这些关键词进行大范围的扩写,生成脉络清晰、故事完整的网文作品。

2)新增量:网文互动性增强,内容形式有望升维。一是提升网文本身的互动性。 2019 年,阅文集团曾和微软小冰联合推出过“IP 唤醒计划”,即让用户和网络文学里 的高人气角色进行文字互动。后续结合类 ChatGPT 大模型,虚拟角色和网文用户之间 的对话场景将更为通用,并在平台网文库里铺开使用,有望大幅提升用户的阅读体验。 二是从网文衍生出有声书、漫画、动画等更高维度的内容形式。随着 AI 大模型多模 态能力的提升,文生图、文生音视频的门槛有望逐步降低。而手握大量 IP 资源的网 文平台,有望借助 AI 大模型的多模态生成能力,基于丰富的网文语料库生成相应的 有声书、漫画、短视频、动画等更高维度的 IP 内容,大幅推升商业化空间。

2.3 AI+图片:平台变现效率有望提升

1)降本增效:图片搜索精准识别,提升平台变现效率。以国内头部图片版权平 台视觉中国为例,其旗下 【【网址】】 网站已推出 AI 智能搜索功能(Beta 版),基于多 模态、自然语言理解以及知识图谱等人工智能技术,用户不仅可以用“关键词”进行 检索,也可以使用“自然语言”、“以图搜图”的方式进行搜索。因此,平台可以更准 确地理解用户的搜索需求、找到对应图片,有望提升中小客户、C 端用户的找图效率, 从而提升平台整体的变现率。

2)新增量:基于高质量图片素材库,有望孵化中国版 Midjourney。图片版权平 台的核心资产是高质量的图片素材库,在 AI 大模型生态中有望价值重估:一是为大 模型训练提供丰富的图片数据库;二是在外接大模型的基础上,训练自有的图像生成 垂类模型。从海外情况看,全球最大的图片版权平台 Getty Images 与英伟达开展合 作,基于英伟达的“毕加索”AI 图片生成框架,用自有的高质量素材训练图片、视频 生成垂类模型;图像创作者社区 Shutterstock 也在使用英伟达的 AI 框架,基于自有 资源训练 3D 生成模型。从国内情况进行类比,随着国内 AI 大模型性能、生态逐步完 善,图片版权平台有望训练自有的垂类生成模型,孵化“中国版的 Midjourney”。

2.4 AI+视频:提升工业化水平,孵化新的 UGC 生态

1)降本增效:短视频、动画制作领域率先落地。传统影视内容的制作流程主要 分为三个阶段:前期(剧本、脚本制作,募集资金、导演选角等),中期(正式的拍 摄工作),后期(剪辑、视效制作等)。目前,类 ChatGPT 大模型主要应用于文字、图 片生成类的影视制作环节,包括前期的剧本、脚本制作,以及后期的视觉特效、宣发 素材制作等。具体来看,编剧可根据具体需求,短时间内生成多个剧本供片方选择; 导演借助 AI 工具,在脚本设计、镜头语言的选择上更为丰富;后期视效、剪辑工作 的繁琐程度大幅降低,整体上压缩影视内容的制作周期,降低制作成本。从影视内容 的种类来看,短视频和动画制作的线上化、工业化程度较高,AI 大模型赋能下的降本 增效成果有望率先落地;而真人参演的影视剧制作流程较为繁琐,涉及大量的线下实 景、真人演员拍摄环节,生成式 AI 替代人力的落地速度相对较慢。

2)新增量:降低制作门槛,孵化新的 UGC 视频生态。从技术路径的角度,AI 视 频生成的实现难度显著高于文字和图片生成,原因有二:一是视频内容本身的复杂度 高,包括每秒 24 帧的镜头素材,因此需要基于成熟的图片生成能力、和大量的算力 资源;二是镜头语言的叙事逻辑有别于自然语言,目前 ChatGPT 的训练素材以文字为 主,尚未支持视频内容的输入,因此无法生成持续、连贯的视频内容。但长期来看, UGC 视频制作的难度有望大幅降低。目前,国内外多个头部互联网厂商已推出短视频 生成模型,如 Meta 的 Make-A-Video、谷歌 【【微信】】、阿里“魔搭社区”里的文 生视频模块、腾讯“智影助手”等,用户可通过输入文字描述、图片素材,生成数十 秒到一分钟的视频内容。类比移动互联网的普及孵化出短视频生态,随着 AI 多模态 能力的提升,C 端用户制作复杂视频的门槛有望大幅降低,孵化新的视频社区生态。

2.5 AI+游戏:全流程降本增效,推动品类创新周期

1)降本增效:研发、发行全流程落地。在所有内容制作行业中横向对比,游戏 是生产制作工业化程度最高的内容形式,因此 AI 大模型能更好地和游戏研发、发行 工作流相融合,降本增效的落地速度也最快。此前,腾讯、网易、米哈游、莉莉丝等 国内头部游戏公司均已布局 AI 生成工具,降本增效成果已在游戏文案、角色和道具 生成等研发环节率先落地。随着通用类大模型 ChatGPT、以及图像生成类模型 Stable Diffusion 等的应用,游戏策划、设计中更为复杂的 3D 建模、场景等也有望通过 AI 工具自动生成,从而推升游戏研发团队的生产力上限,提高游戏内容的质量和更新迭 代速度,进一步提升用户粘性和付费意愿。

2)新增量:AI 有望推动下一轮品类创新周期。作为内容