
2022年底,“ChatGPT”一词在中国互联网上以迅雷不及掩耳之势蹿红,且热度持续至今,2023年年底,《咬文嚼字》公布2023年十大流行语,其中就包括人工智能大模型。2023年3月16日,百度新一代大语言模型文心一言启动邀测,8月31日,文心一言率先面向社会全面开放,伴随着文心一言对公的全面开放,百川智能、商汤商量SenseChat、讯飞星火、通义千问等也陆续对外开放。截至2024年8月,我国完成备案并上线、能为公众提供服务的生成式人工智能服务大模型已达190多个,注册用户超过6亿,“AI拍照”“AIGC”“AI扩图”“AI陪伴”等大模型应用与人类生活交织越来越紧密,重塑着千行百业。
如需PDF版本,请您发送邮件至 market@huashang.cn提供您的姓名、就职单位、职务、公司邮箱及手机号,以便我们及时发送给您。
Part.01
2017年NeurIPS会议,谷歌团队发布《Attention is all you need》一文,该文基于谷歌机器翻译团队提出的由多组Encoder[1]、Decoder[2]构成的机器翻译模型Transformer[3],自此,各大科技互联网厂商对大模型的设计开发拉开序幕。
2023年4月,来自亚马逊、得克萨斯农工大学与莱斯大学的研究人员刊发大模型综述《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》一文,构建了一颗“家谱树”,梳理了自2018年以来以ChatGPT为代表的大模型的前世今生,主要从Encoder-Only(仅编码器)、Encoder-Decoder(编码器-解码器)、Decoder-Only(仅解码器)进行模型搭建,其中可以看到当前主流的大模型都是基于Decoder-Only进行,代表大模型有GPT家族、Meta家族、PaLM等,且大多数模型在早期均有开源,当前走向趋于闭源。从“家谱树”可以看出,GPT 家族基于给定前面单词序列预测下一个单词来进行训练,因此 GPT 最初仅仅是作为一个文本生成模型而出现的,而 GPT-3 的出现则是 GPT 家族命运的转折点,2020年6月,GPT-3自发布以来,向人们展示了大模型带来的超越文本生成本身的神奇能力,显示了这些自回归语言模型的优越性。而从 GPT-3 开始,当下的 ChatGPT、GPT-4、Bard 以及 PaLM、LLaMA 百花齐放百家争鸣,带来了当下的大模型盛世。

注:现代LLMs的进化树追溯了近些年来语言模型的发展,并突出了一些著名的模型,在同一分支上的模型有更密切的关系。非灰色分支表示基于变压器的模型;蓝色分支表示基于仅解码器的模型;粉红色分支代表仅编码器的模型;绿色分支代表基于编码器-解码器的模型。图中时间轴上的垂直位置表示模型的发布日期。开源模型用实心方块表示,闭源模型用空心方块表示。右下角显示来自不同公司和机构的模型数量。来源:《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》当下常说的大模型,更准确来讲应为大型语言模型(Lager Language Model, LLM),是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如文心一言、天工、ChatGPT、PaLM等,具体来说,LLM建立在Transformer架构之上,其中多头注意力堆叠在一个非常深的神经网络中。现有的LLM主要采用与小语言模型类似的模型架构(即Transformer)和预训练目标(即语言建模)。作为主要区别,LLM在很大程度上扩展了模型大小,预训练数据和总计算量(扩大倍数)。他们可以更好地理解自然语言,并根据给定的上下文生成高质量文本。基于当下模型大多数为千亿级别,主要是源于之前发现扩大语言模型的规模可以显著提升零样本或小样本的学习能力。大模型本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。
大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。
(一)根据训练数据的参数量级,目前有小模型、大模型、超大模型三种小模型通常指参数较少、层数较浅的模型,具有轻量级、易于部署等的优点,适用于数据量较小、计算资源有限的场景,例如移动端应用,嵌入式设备、物联网等。当模型的数量数据和参数不断扩大,直至达到一定的“临界规模”,表现出一些未能预测的,更复杂的能力和特性,模型能够从原始数据中自动学习并发现新的、更高层次的特征和模式,这种能力就被称为是模型的“涌现能力”,而具备涌现能力的模型就是现在通俗意义上的大模型,这也是大模型与小模型之间最本质的区别。相较于小模型。大模型通常参数较多,层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间进行训练和推理,适用于云端计算、更高性能计算、人工智能等。而超大模型是大模型的一个子集,他们的参数量远超过大模型。目前业内对于小模型、大模型、超大模型的参数“临界规模”暂未有定论,但普遍认知为千亿参数量级别的都可以认定为大模型。(二)根据输入数据类型的不同,大模型可分为语言、视觉、多模态、科学计算四大类型语言大模型,主要是在自然语言处理(NLP)领域的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则,例如:GPT家族(OpenAI)、Bard(Google)、文心一言(百度)等。视觉大模型,主要是在计算机视觉(CV)领域的一类大模型,通常用于图像处理和分析。这类模型通常通过大量的图像数据进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等,例如华为盘古CV、文心UFO(百度)、INTERN(商汤)等。多模态大模型,主要是能够处理多种不同类型数据,例如文本、图像、音频等多模态数据,这类模型结合了语言和视觉两类大模型的能力,实现对多模态信息的综合理解和分析,从而全面化理解和处理大量复杂数据。例如DingoDB多模数据向量数据库(九章云极DataCanvas)、DALL-E(OpenAI)、midjourney等。科学计算大模型,与前述三类大模型不同的是,科学计算大模型是出于解决复杂数学问题的目标,优化计算机性能以完成数值计算,应用于生物制药、地震预测、材料研发等科研领域,例如华为云盘古气象大模型的相关研究成果于2023年7月发布在《Nature》的正刊。(三)根据应用领域的不同,大模型可分为L0、L1、L2三个层级L0 基础大模型:是指在多个领域和任务上通用的大模型,通过利用算力、使用海量开放数据与海量参数的深度学习算法,对大规模无标注数据进行训练,以寻找特征并发现规律,使得大模型自身具备强大泛化能力,举一反三,融会贯通,大模型可完成在无微调或轻微微调的情况下完成多场景任务,可以说,通用大模型在训练过程中类似于人类在现实生活中完成通识教育的过程。L1 行业大模型:是指针对特定行业或领域的大模型,通常会使用行业相关的数据进行模型预训练及微调,提高行业大模型的性能和准确性,致力于打造行业专家大模型。L2 垂直大模型:是指针对特定任务或场景的大模型,通常使用与任务相关的数据进行模型预训练及微调,提高垂直大模型的性能和准确性。
大模型的落地,是对AI核心驱动要素的潜能激发,大模型正在从生产规则、落地方式、商业模式等多维度重塑产业智能化。基础大模型的广适性使得其在产业智能化的过程中打好基底,与应用场景深度融合,借助支持产业全流程应用落地的专业工具与平台,赋能开发者创新产业生态,打造良性循环的产业智能化生态共同体,激发经济新活力。以百度公司旗下文心一言大模型为例,百度公司在不断提高文心一言自身性能的同时,将其细分打包成产品,对外提供API接入服务,相关开发者、企业、学术机构以及高校等均可以申请使用,服务的领域涵盖NLP、视觉、跨模态、生物计算等多个领域,而在这个过程中,文心一言通过大量的用户产生的行为数据提高了自身的性能。从大模型的市场格局来看,大模型是“模型+工具平台+生态”的综合体进而助力产业智能化。

l模型层:作为大模型能力的核心,从技术发展与产业应用出发,涵盖L0、L1、L2大模型,训练要求高,算力消耗大。基础大模型的广适性使得其在技术方面的应用任务得到进一步的提升,但是其在行业、场景的具体针对性减弱,在基础大模型之上,任务大模型面向多元化的任务,如对话、搜索、文档转换、人脸识别、OCR等,行业大模型在基础大模型的基础上,优化模型算法,进一步深度学习融合行业数据、知识及专家经验,提升大模型对于行业的应用适配度,增强了对行业、场景的针对性。目前金融、能源、制造、传媒、城市等头部企业、科技公司或科研单位等都已布局行业大模型。l工具平台层:推动大模型及其相关应用落地,深度学习平台为大模型解决硬件适配,提供数据蒸馏、剪枝、压缩等技术并向外部署输出方案,支撑自然语言处理、计算机视觉、多模态、科学计算等各类大模型的应用。同时,基于深度学习平台进一步推出基于大模型的AI开放平台、工具套件、大模型API等,将大模型进行精调,让更多的AI应用型开发者或业务专家,低成本更甚零成本应用大模型,提升效率,全面释放大模型的效能。l生态层:针对于大模型的“预训练+精调”的研发范式,赋能人工智能识别、理解、生成等方面,打造深度语义理解、智能交互、内容生成等相关的技术与产品,搭建基于大模型的生态,提供能力、工具、服务,连接市场供需,减小供需信息差,吸引更多的开发者与企业共创,释放大模型的潜力。大模型是一种基于深度学习的人工智能技术,其核心是将大量的计算资源,通过深度学习等方法在大规模数据集上进行预训练,训练出具有强大的泛化能力和表达能力的人工智能模型,之后通过微调适应特定场景,处理特定任务,进行特征表示,进行知识、语言模型等的输出。大模型可以处理多种类型和规模的数据,如文本、图像、音频、视频等,可以完成多种复杂和高级的任务,如自然语言理解、计算机视觉、语音识别、自然语言生成等。
针对于当下的大模型,其主要关键技术为以下几个方面。
大模型通常采用预训练+微调的基本模型搭建方法,以此提高模型的通用性、适用性、实用性和安全性,例如GPT家族是按照首先在大规模的文本数据上进行无监督的预训练,学习通用的语言知识和表达,之后在特定的任务数据上进行有监督的微调,学习特定的任务知识和技能,同时在整个预训练和微调的过程中,对大模型进行价值训练,确保模型输出内容的安全性。预训练是大模型的第一阶段,模型通过大规模的数据集进行训练,学习通用的语言结构、语法、常识等一般的信息和知识,这个阶段大模型学习如何从数据中提取有用的特征。通过海量数据进行预训练,提高模型的性能和泛化能力。微调是大模型的第二阶段,模型在针对特定任务或场景的数据集上进行微调,以应对具体的任务。(二)网络结构
当代大模型通常采用Transformer作为基本的网络结构,使用自注意力机制捕捉长距离的依赖关系。大模型通常拥有深层的神经网络,例如 GPT-3用来93层的变换器网络的Decoder块。由于网络层数的增加,模型能够学习更加抽象和高级的特征表示。为了训练这些大模型,需要大量的计算资源,包括高性能的硬件和优化的训练算法。这些资源的结合使得大模型的训练成为可能,同时也为其带来了强大的泛化性、通用性和实用性。(三)计算资源
大模型通常需要强大的计算资源,如数据、文本等多元计算信息,进行训练,以此缩短训练时长和提高训练效率,例如科技公司智谱华章推出的智谱清言AI大模型,其训练硬件配置为1.6w+颗芯片,1w+服务器,4w+CPU,1k+GPU,同时基于对科研人员、科技文献、学术活动三大类数据进行分析挖掘,其中包含3.3亿条论文信息,1.2亿条学者信息,1.5亿条专利信息,38万家科研机构,260万个科研项目等,进行模型训练。(四)量化技术
大模型进行量化可以有效减少计算和存储开销,降低大模型的部署成本和缩短推理延迟。量化的核心就是通过减少每个参数和激活的位数,来压缩模型大小和加快模型计算运转速度,通过将连续的浮点数映射到离散的整数,以此来压缩模型大小,就比如32位的浮点数可以转换为8位的整数,与此同时,模型的每个参数就可以用8个bit[4] 来表示,从而在这个过程中,模型大小压缩了四倍,运行速度加快了四倍,但是,量化也会在一定程度上带来模型精度的下降,因此在对于模型优化的过程中,同步保证高效量化和准确精度,是极其重要的。目前,普遍有两种量化方法,PTQ(Post-Training quantization,后训练量化)和QAT(Quantization-Aware Training,量化感知训练),PTQ是指在模型训练完成后,直接对模型的参数和激活进行量化,不需要额外的训练过程,QAT是指在模型训练的过程中,对模型的参数和激活进行量化,并同时同步反向传播更新量化的参数,以此减小量化的误差。这两种量化方法,相较而言,PTQ的优点是简单和快速,不需要额外的计算资源,但是当进行低位数量化时,模型的精度会显著下降。QAT的优点是可以保持较高的模型精度,但是在低于参数量低于8位的量化中,需要重新训练模型,这会消耗大量的计算资源。
当下针对于大模型的量化,主要集中在PTQ上,这是因为对于绝大多数开发者而言,QAT的量化方法,会导致模型训练的时间过长,并且会增加一定成本,但是在当前PTQ的量化过程中,鉴于大模型本身激活存在异常值,异常值会影响量化的范围和精度,导致量化后的模型性能下降。当前也有很多计算研究人员提出一些方法去解决这个问题,比如对激活进行变换或重组,以减少异常值的影响,除了对激活进行处理外,研究人员也同样提出对量化后的模型进行微调,以补偿量化误差。当下对于大模型量化的研究,集中在如何设计更高效和更通用的激活变换或重组的方法,以此来适应不同的大模型和不同的量化位数。大模型的量化是至关重要且非常有前景的一项技术,不仅降低了大模型的部署成本和推理延迟,减小了推理过程需要的计算量,从而促进了大模型的普及和应用,这在减少碳排放实现碳中和目标中也提供了一定支持。
(五)知识蒸馏技术
大模型知识蒸馏是机器学习模型压缩的一种方法,通过将大型模型的知识迁移到较小模型中,可以将大型模型看做教师模型,较小模型看做学生模型,因此,知识蒸馏也被称为教师-学生神经网络学习算法,可以提高模型性能和泛化能力,核心就是将教师模型的综合知识转换为更精简、更有效的表示。模型蒸馏的优点是可以利用大模型的强大能力,同时减少模型的规模和复杂度,提高模型的效率和可部署性,这对于需要进行超大量计算的模型是很有用的,可大幅减少推理成本,在进行模型蒸馏的过程中,会进行知识蒸馏、标准知识蒸馏、基于涌现能力的知识蒸馏、上下文学习蒸馏、思维链蒸馏、指令遵循蒸馏等。但是在大模型蒸馏过程中,对于如何设计合适的学生模型和损失函数,以及如何选择合适的训练数据集,以此来保证学生模型能够最大程度从教师模型中学习到有用的知识,而不是欠拟合或者过拟合。
(六)泛化能力和跨领域迁移能力
大模型进行预训练之后,会表现出惊人的泛化能力,所以在只有少量任务数据的情况下,也可以理解并适应接收任务的上下文、要求和特点,这为大模型在许多应用场景都提供了便利的服务,在无需大量数据的情况下,可快速搭建高性能的大模型应用。大模型的技术在多个领域都取得了突破性的性能提升。在自然语言处理领域,大模型在机器翻译、文本生成、情感分析等任务上都表现出色,达到甚至超越人类水平的表现。在计算机视觉领域,大模型在图像分类、物体检测、图像生成等任务中也取得了重大进展。智能语音领域的语音识别、语音生成等任务也因大模型技术而得以显著提升。
注:
[1] Encoder,编码器,是指将信息或数据进行编码或者进行特征提取。
[2] Decoder,解码器,是指将特征解码作为与任务相关的输出。
[3] Transformer,Encoder-Decoder并行搭建的机器翻译模型,Encoder进行编码,Decoder进行预测输出。
[4] Bit,计算机专业术语,信息量的最小单位,即数据存储的最小单位。