📢 #Gate广场征文活动第三期# 正式启动!
🎮 本期聚焦:Yooldo Games (ESPORTS)
✍️ 分享独特见解 + 参与互动推广,若同步参与 Gate 第 286 期 Launchpool、CandyDrop 或 Alpha 活动,即可获得任意奖励资格!
💡 内容创作 + 空投参与 = 双重加分,大奖候选人就是你!
💰总奖池:4,464 枚 $ESPORTS
🏆 一等奖(1名):964 枚
🥈 二等奖(5名):每人 400 枚
🥉 三等奖(10名):每人 150 枚
🚀 参与方式:
在 Gate广场发布不少于 300 字的原创文章
添加标签: #Gate广场征文活动第三期#
每篇文章需 ≥3 个互动(点赞 / 评论 / 转发)
发布参与 Launchpool / CandyDrop / Alpha 任一活动的截图,作为获奖资格凭证
同步转发至 X(推特)可增加获奖概率,标签:#GateSquare 👉 https://www.gate.com/questionnaire/6907
🎯 双倍奖励机会:参与第 286 期 Launchpool!
质押 BTC 或 ESPORTS,瓜分 803,571 枚 $ESPORTS,每小时发放
时间:7 月 21 日 20:00 – 7 月 25 日 20:00(UTC+8)
🧠 写作方向建议:
Yooldo
AI与加密货币:深度学习技术引领产业革命
AI x Crypto:从零到巅峰
AI行业近期的发展被一些人视为第四次工业革命。大模型的出现显著提升了各行各业的效率,据估计为美国提升了约20%的工作效率。同时大模型带来的泛化能力被认为是新的软件设计范式,过去的精确代码设计转变为更泛化的大模型框架嵌入,使软件具备更好的表现和更广泛的模态支持。深度学习技术确实为AI行业带来了第四次繁荣,这股风潮也影响到了加密货币行业。
本报告将详细探讨AI行业的发展历史、技术分类,以及深度学习技术对行业的影响。深入分析深度学习中GPU、云计算、数据源、边缘设备等产业链上下游的发展现状与趋势。从本质上探讨加密货币与AI行业的关系,梳理加密货币相关的AI产业链格局。
AI行业的发展历史
AI行业从20世纪50年代起步,为实现人工智能的愿景,学术界和工业界在不同时代不同学科背景下,发展出许多实现人工智能的流派。
现代人工智能技术主要使用"机器学习"这一术语,其理念是让机器依靠数据在任务中反复迭代以改善系统性能。主要步骤是将数据送到算法中,用此数据训练模型,测试部署模型,使用模型完成自动化的预测任务。
目前机器学习有三大主要流派,分别是联结主义、符号主义和行为主义,分别模仿人类的神经系统、思维、行为。
目前以神经网络为代表的联结主义占据上风(也称为深度学习),主要原因是这种架构有一个输入层一个输出层,但有多个隐藏层,一旦层数以及神经元(参数)的数量足够多,就有足够的机会拟合复杂的通用型任务。通过数据输入,可以不断调整神经元的参数,最后经历过多次数据,该神经元就会达到一个最佳状态(参数),这就是所谓的大力出奇迹,也是其"深度"两字的由来 - 足够多的层数和神经元。
举个例子,可以简单理解为构造了一个函数,该函数输入X=2时,Y=3;X=3时,Y=5,如果想要这个函数应对所有的X,那么就需要不断添加这个函数的度及其参数,比如可以构造满足这个条件的函数为Y = 2X -1 ,但如果有一个数据为X=2,Y=11时,就需要重构一个适合这三个数据点的函数,使用GPU进行暴力破解发现Y = X2 -3X +5比较合适,但不需要完全和数据重合,只需要遵守平衡,大致相似的输出即可。这里面X2以及X、X0都代表不同的神经元,而1、-3、5就是其参数。
此时如果我们输入大量数据到神经网络中,我们可以增加神经元、迭代参数来拟合新的数据。这样就能拟合所有的数据。
而基于神经网络的深度学习技术,也有多个技术迭代与演进,分别如上图的最早期的神经网络,前馈神经网络、RNN、CNN、GAN最后演进到现代大模型如GPT等使用的Transformer技术,Transformer技术只是神经网络的一个演进方向,多加了一个转换器(Transformer),用于把所有模态(如音频,视频,图片等)的数据编码成对应的数值来表示。然后再输入到神经网络中,这样神经网络就能拟合任何类型的数据,也就是实现多模态。
AI发展经历了三次技术浪潮,第一次浪潮是20世纪60年代,是AI技术提出的十年后,这次浪潮是符号主义技术发展引起的,该技术解决了通用的自然语言处理以及人机对话的问题。同时期,专家系统诞生,这个是某大学在某机构的督促下完成的DENRAL专家系统,该系统具备非常强的化学知识,通过问题进行推断以生成和化学专家一样的答案,这个化学专家系统可以被视为化学知识库以及推断系统的结合。
在专家系统之后,20世纪90年代珀尔提出了贝叶斯网络,该网络也被称为信念网络。同时期,Brooks提出了基于行为的机器人学,标志着行为主义的诞生。
1997年,某公司的深蓝"Blue"以3.5:2.5战胜了国际象棋冠军卡斯帕罗夫,这场胜利被视为人工智能的一个里程碑,AI技术迎来了第二次发展的高潮。
第三次AI技术浪潮发生在2006年。深度学习三巨头提出了深度学习的概念,一种以人工神经网络为架构,对资料进行表征学习的算法。之后深度学习的算法逐渐演进,从RNN、GAN到Transformer以及Stable Diffusion,这两个算法共同塑造了这第三次技术浪潮,而这也是联结主义的鼎盛时期。
许多标志性的事件也伴随着深度学习技术的探索与演进逐渐涌现,包括:
2011年,某公司的系统在某节目中战胜人类、获得冠军。
2014年,Goodfellow提出GAN(生成式对抗网络),通过让两个神经网络相互博弈的方式进行学习,能够生成以假乱真的照片。同时Goodfellow还写了一本书籍《Deep Learning》,称为花书,是深度学习领域重要入门书籍之一。
2015年,Hinton等人在《自然》杂志提出深度学习算法,该深度学习方法的提出,立即在学术圈以及工业界引起巨大反响。
2015年,某机构创建,多位知名人士宣布共同注资10亿美元。
2016年,基于深度学习技术的系统与围棋世界冠军、职业九段棋手进行围棋人机大战,以4比1的总比分获胜。
2017年,某公司开发的类人机器人索菲亚,其称为历史上首个获得一等公民身份的机器人,具备丰富的面部表情以及人类语言理解能力。
2017年,在人工智能领域有丰富人才、技术储备的某公司发布论文《Attention is all you need》提出Transformer算法,大规模语言模型开始出现。
2018年,某机构发布了基于Transformer算法构建的GPT,这是当时最大的语言模型之一。
2018年,某团队发布基于深度学习的系统,能够进行蛋白质的结构预测,被视为人工智能领域的巨大进步性标志。
2019年,某机构发布GPT-2,该模型具备15亿个参数。
2020年,某机构开发的GPT-3,具有1,750亿个参数,比以前的版本GPT-2高100倍,该模型使用了570GB的文本来训练,可以在多个NLP(自然语言处理)任务(答题、翻译、写文章)上达到最先进的性能。
2021年,某机构发布GPT-4,该模型具备1.76万亿个参数,是GPT-3的10倍。
2023年1月基于GPT-4模型的应用程序推出,3月达到一亿用户,成为历史最快达到一亿用户的应用程序。
2024年,某机构推出GPT-4 omni。
深度学习产业链
当前大模型语言使用的都是基于神经网络的深度学习方法。以GPT为首的大模型造就了一波人工智能的热潮,大量的玩家涌入这个赛道,我们也发现市场对于数据、算力的需求大量迸发,因此在报告的这一部分,我们主要是探索深度学习算法的产业链,在深度学习算法主导的AI行业,其上下游是如何组成的,而上下游的现状与供需关系、未来发展又是如何。
首先我们需要明晰的是,在进行基于Transformer技术的GPT为首的LLMs(大模型)训练时,一共分为三个步骤。
在训练之前,因为是基于Transformer,因此转换器需要将文本输入转化为数值,这个过程被称为"Tokenization",之后这些数值被称为Token。在一般的经验法则下,一个英文单词或者字符可以粗略视作一个Token,而每个汉字可以被粗略视为两个Token。这个也是GPT计价使用的基本单位。
第一步,预训练。通过给输入层足够多的数据对,类似于报告第一部分所举例的(X,Y),来寻找该模型下各个神经元最佳的参数,这个时侯需要大量的数据,而这个过程也是最耗费算力的过程,因为要反复迭代神经元尝试各种参数。一批数据对训练完成之后,一般会使用同一批数据进行二次训练以迭代参数。
第二步,微调。微调是给予一批量较少,但是质量非常高的数据,来训练,这样的改变就会让模型的输出有更高的质量,因为预训练需要大量数据,但是很多数据可能存在错误或者低质量。微调步骤能够通过优质数据提升模型的品质。
第三步,强化学习。首先会建立一个全新的模型,我们称其为"奖励模型",这个模型目的非常简单,就是对输出的结果进行排序,因此实现这个模型会比较简单,因为业务场景比较垂直。之后用这个模型来判定我们大模型的输出是否是高质量的,这样就可以用一个奖励模型来自动迭代大模型的参数。(但是有时候也需要人为参与来评判模型的输出质量)
简而言之,在大模型的训练过程中,预训练对数据的量有非常高的要求,所需要耗费的GPU算力也是最多的,而微调需要更加高质量的数据来改进参数,强化学习可以通过一个奖励模型来反复迭代参数以输出更高质量的结果。
在训练的过程中,参数越多那么其泛化能力的天花板就越高,比如我们以函数举例的例子里,Y = aX + b,那么实际上有两个神经元 X以及X0,因此参数如何变化,其能够拟合的数据都极其有限,因为其本质仍然是一条直线。如果神经元越多,那么就能迭代更多的参数,那么就能拟合更多的数据,这就是为什么大模型大力出奇迹的原因,并且这也是为什么通俗取名大模型的原因,本质就是巨量的神经元以及参数、巨量的数据,同时需要巨量的算力。
因此,影响大模型表现主要由三个方面决定,参数数量、数据量与质量、算力,这三个共同影响了大模型的结果质量和泛化能力。我们假设参数数量为p,数据量为n(以Token数量进行计算),那么我们能够通过一般的经验法则计算所需的计算量,这样就可以预估我们需要大致购买的算力情况以及训练时间。
算力一般以Flops为基本单位,代表了一次浮点运算,浮点运算是非整数的数值加减乘除的统称,如2.5+3.557,浮点代表着能够带小数点,而FP16代表了支持小数的精度,FP32是一般更为常见的精度。根据实践下的经验法则,预训练(Pre-traning)一次(一般会训练多次)大模型,大概需要 6np Flops,6被称为行业常数。而推理(Inference,就是我们输入一个数据,等待大模型的输出的过程),分成两部分,输入n个token,输出n个token,那么大约一共需要2np Flops。
在早期,使用的是CPU芯片进行训练提供算力支持,但是之后开始逐渐使用GPU替代,如某公司的A100、H100芯片等。因为CPU是作为通用计算存在的,但是GPU可以作为专用的计算,在能耗效率上远远超过CPU。GPU运行浮点运算主要是通过一个叫Tensor Core的模块