O recente desenvolvimento da indústria de IA tem sido visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores, estimando-se que tenha elevado a eficiência do trabalho nos EUA em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software, onde o design de código preciso do passado se transforma em uma estrutura de grandes modelos mais generalizada, permitindo que o software tenha um desempenho melhor e suporte a uma gama mais ampla de modalidades. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para a indústria de IA, e essa onda também afetou a indústria de criptomoedas.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da tecnologia de aprendizado profundo na indústria. Analisaremos profundamente o estado atual e as tendências do desenvolvimento da cadeia de suprimentos da indústria, incluindo GPU, computação em nuvem, fontes de dados, dispositivos de borda, entre outros. Discutiremos essencialmente a relação entre criptomoedas e a indústria de IA, mapeando o padrão da cadeia de suprimentos de IA relacionada a criptomoedas.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950, e para realizar a visão da inteligência artificial, o meio acadêmico e a indústria, em diferentes épocas e contextos disciplinares, desenvolveram muitas correntes para implementar a inteligência artificial.
As tecnologias modernas de inteligência artificial usam principalmente o termo "aprendizagem de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema através de iterações repetidas em tarefas com base em dados. Os principais passos são enviar os dados para o algoritmo, treinar o modelo com esses dados, testar e implementar o modelo, e utilizar o modelo para realizar tarefas de previsão automatizadas.
Atualmente, a aprendizagem automática tem três grandes correntes, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, está em vantagem (, também conhecido como aprendizado profundo ). A principal razão para isso é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios (, bem como os parâmetros ), sejam suficientes, há uma oportunidade suficiente para ajustar tarefas complexas e gerais. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, e após passar por múltiplos dados, o neurônio alcançará um estado ótimo (, parâmetros ), o que é chamado de "muito esforço traz milagres", e é também a origem da palavra "profundo" - um número suficiente de camadas e neurônios.
Um exemplo pode ser entendido simplesmente como a construção de uma função, onde a função tem como entrada X=2, resultando em Y=3; e para X=3, Y=5. Se quisermos que essa função atenda a todos os valores de X, será necessário adicionar constantemente o grau da função e seus parâmetros. Por exemplo, podemos construir uma função que satisfaça essas condições como Y = 2X - 1. No entanto, se tivermos um dado onde X=2 e Y=11, será necessário reestruturar uma função que se adapte a esses três pontos de dados. Usando GPU para uma quebra de força, descobrimos que Y = X² - 3X + 5 é mais adequado, mas não precisa coincidir completamente com os dados, apenas precisa obedecer ao equilíbrio, produzindo uma saída aproximadamente semelhante. Aqui, X², X e X₀ representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se inserirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
E a tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções tecnológicas, como as redes neurais mais antigas mostradas na imagem acima, redes neurais feedforward, RNN, CNN, GAN, que por fim evoluíram para os modernos grandes modelos como GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção evolutiva das redes neurais, adicionando um conversor ( Transformer ), que serve para codificar dados de todas as modalidades (, como áudio, vídeo, imagens, etc. ) em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, alcançando a multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda foi na década de 60 do século XX, uma década após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento natural de linguagem e diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas nasceram, sendo o sistema especialista DENRAL, concluído sob a supervisão de uma universidade e uma instituição. Este sistema possui um conhecimento químico muito forte e gera respostas semelhantes às de um especialista em química através da inferência de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um repositório de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 90, Pearl propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o Deep Blue de uma certa empresa venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória foi vista como um marco para a inteligência artificial, com a tecnologia de IA alcançando um novo pico de desenvolvimento.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning apresentaram o conceito de deep learning, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representações de dados. Após isso, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que estes dois últimos algoritmos moldaram esta terceira onda tecnológica, que também foi a época de ouro do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o sistema de uma empresa venceu os humanos em um programa e conquistou o campeonato.
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial), que aprende através de uma competição entre duas redes neurais, conseguindo gerar fotos que parecem realistas. Ao mesmo tempo, Goodfellow escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros de introdução mais importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo causou um grande impacto tanto na academia quanto na indústria.
Em 2015, uma instituição foi criada, com várias personalidades conhecidas anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, um sistema baseado em tecnologia de aprendizado profundo competiu contra o campeão mundial de Go e jogador profissional de nove dan, vencendo com um total de 4 a 1.
Em 2017, uma empresa desenvolveu o robô humanoide Sophia, que é chamado de o primeiro robô da história a obter a cidadania de primeira classe, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, uma empresa com uma rica reserva de talentos e tecnologia na área de inteligência artificial publicou o artigo "Attention is all you need" que propôs o algoritmo Transformer, e os modelos de linguagem em larga escala começaram a surgir.
Em 2018, uma instituição lançou o GPT construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, uma equipe lançou um sistema baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.
Em 2019, uma instituição lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, uma instituição desenvolveu o GPT-3, que possui 175 bilhões de parâmetros, 100 vezes mais que a versão anterior GPT-2. O modelo usou 570GB de texto para treinamento e pode alcançar desempenho de ponta em várias tarefas de NLP(, como responder perguntas, tradução e redação de artigos).
Em 2021, uma instituição lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
Lançamento de aplicações baseadas no modelo GPT-4 em janeiro de 2023, alcançando cem milhões de utilizadores em março, tornando-se a aplicação que atingiu mais rapidamente cem milhões de utilizadores na história.
Em 2024, uma instituição lançou o GPT-4 omni.
Cadeia de Indústria de Aprendizado Profundo
Os grandes modelos de linguagem atuais utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, esses grandes modelos geraram um auge na inteligência artificial, com muitos players entrando nesse setor. Também observamos uma explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos principalmente a cadeia de suprimentos dos algoritmos de aprendizado profundo. No setor de IA dominado por algoritmos de aprendizado profundo, como é composta a sua cadeia de suprimentos e qual é a situação atual das relações de oferta e demanda, bem como seu desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs liderados pelo GPT com base na tecnologia Transformer (, o processo é dividido em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization". Depois, esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica usada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer um número suficiente de pares de dados à camada de entrada, semelhante ao exemplo da primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros para cada neurônio sob o modelo, é necessário um grande volume de dados nesse momento, e esse processo também é o que mais consome poder computacional, pois envolve iterações repetidas de neurônios tentando várias configurações de parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente utiliza-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino consiste em fornecer um conjunto de dados menor, mas de qualidade muito alta, para treinar, e essa mudança pode resultar em uma saída de modelo de maior qualidade, uma vez que o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode aprimorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um modelo totalmente novo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples, que é classificar os resultados de saída, portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Depois, usaremos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ) No entanto, às vezes também é necessário que a participação humana avalie a qualidade da saída do modelo (.
Em resumo, durante o processo de treinamento de modelos grandes, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a capacidade de GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensas para gerar resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto de generalização, por exemplo, no caso da função que usamos como exemplo, Y = aX + b, na verdade existem dois neurônios X e X0, portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, porque a essência ainda é uma linha reta. Se houver mais neurônios, então será possível iterar mais parâmetros, permitindo ajustar mais dados, essa é a razão pela qual grandes modelos produzem resultados extraordinários, e também é por isso que é comumente chamado de grande modelo, a essência é uma enorme quantidade de neurônios e parâmetros, bem como uma enorme quantidade de dados, ao mesmo tempo que requer uma enorme capacidade de computação.
Assim, o desempenho de modelos grandes é determinado principalmente por três fatores: a quantidade de parâmetros, a quantidade e qualidade dos dados, e a capacidade computacional. Suponhamos que a quantidade de parâmetros seja p, a quantidade de dados seja n) calculada em termos de número de Tokens(, então podemos calcular a quantidade de computação necessária com base em regras de experiência gerais, o que nos permitirá estimar aproximadamente a capacidade computacional que precisamos comprar e o tempo de treinamento.
A capacidade de computação é geralmente medida em Flops, representando uma operação de ponto flutuante, que é um termo genérico para adição, subtração, multiplicação e divisão de números não inteiros, como 2.5+3.557. O ponto flutuante representa a capacidade de incluir casas decimais, enquanto FP16 representa a precisão que suporta decimais, e FP32 é uma precisão mais comum. Com base em regras empíricas de prática, o pré-treinamento )Pre-traning( geralmente treina um grande modelo várias vezes ), necessitando cerca de 6np Flops, sendo 6 conhecido como constante da indústria. A inferência (Inference é o processo em que introduzimos um dado e aguardamos a saída do grande modelo ), dividindo-se em duas partes: entrada de n tokens e saída de n tokens, portanto, cerca de 2np Flops são necessários ao todo.
No início, usava-se chips de CPU para treinar e fornecer suporte computacional, mas depois começou-se a substituir gradualmente por GPUs, como os chips A100 e H100 de uma determinada empresa. Isso porque a CPU existe como computação geral, enquanto a GPU pode ser usada como computação especializada, superando de longe a CPU em eficiência energética. A GPU realiza operações de ponto flutuante principalmente através de um módulo chamado Tensor Core.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
13 Curtidas
Recompensa
13
4
Compartilhar
Comentário
0/400
GreenCandleCollector
· 07-25 11:50
bull run voou no dia em que dei doces a todos
Ver originalResponder0
StableNomad
· 07-23 01:17
na verdade... já vi este filme antes com icos em '17, mas a verdade é que o potencial de roi aqui é diferente
Ver originalResponder0
0xSherlock
· 07-23 01:14
O dinheiro chega muito devagar, não consigo sustentar a riqueza de toda a família.
Ver originalResponder0
GasFeeCry
· 07-23 00:56
mundo crypto não tem tendência, tudo depende da sorte.
AI e ativos de criptografia: tecnologia de encriptação profunda liderando a revolução industrial
AI x Crypto: Do zero ao pico
O recente desenvolvimento da indústria de IA tem sido visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em diversos setores, estimando-se que tenha elevado a eficiência do trabalho nos EUA em cerca de 20%. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software, onde o design de código preciso do passado se transforma em uma estrutura de grandes modelos mais generalizada, permitindo que o software tenha um desempenho melhor e suporte a uma gama mais ampla de modalidades. A tecnologia de aprendizado profundo realmente trouxe a quarta prosperidade para a indústria de IA, e essa onda também afetou a indústria de criptomoedas.
Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, as classificações tecnológicas e o impacto da tecnologia de aprendizado profundo na indústria. Analisaremos profundamente o estado atual e as tendências do desenvolvimento da cadeia de suprimentos da indústria, incluindo GPU, computação em nuvem, fontes de dados, dispositivos de borda, entre outros. Discutiremos essencialmente a relação entre criptomoedas e a indústria de IA, mapeando o padrão da cadeia de suprimentos de IA relacionada a criptomoedas.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950, e para realizar a visão da inteligência artificial, o meio acadêmico e a indústria, em diferentes épocas e contextos disciplinares, desenvolveram muitas correntes para implementar a inteligência artificial.
As tecnologias modernas de inteligência artificial usam principalmente o termo "aprendizagem de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema através de iterações repetidas em tarefas com base em dados. Os principais passos são enviar os dados para o algoritmo, treinar o modelo com esses dados, testar e implementar o modelo, e utilizar o modelo para realizar tarefas de previsão automatizadas.
Atualmente, a aprendizagem automática tem três grandes correntes, que são o conexionismo, o simbolismo e o behaviorismo, que imitam, respetivamente, o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, está em vantagem (, também conhecido como aprendizado profundo ). A principal razão para isso é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios (, bem como os parâmetros ), sejam suficientes, há uma oportunidade suficiente para ajustar tarefas complexas e gerais. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, e após passar por múltiplos dados, o neurônio alcançará um estado ótimo (, parâmetros ), o que é chamado de "muito esforço traz milagres", e é também a origem da palavra "profundo" - um número suficiente de camadas e neurônios.
Um exemplo pode ser entendido simplesmente como a construção de uma função, onde a função tem como entrada X=2, resultando em Y=3; e para X=3, Y=5. Se quisermos que essa função atenda a todos os valores de X, será necessário adicionar constantemente o grau da função e seus parâmetros. Por exemplo, podemos construir uma função que satisfaça essas condições como Y = 2X - 1. No entanto, se tivermos um dado onde X=2 e Y=11, será necessário reestruturar uma função que se adapte a esses três pontos de dados. Usando GPU para uma quebra de força, descobrimos que Y = X² - 3X + 5 é mais adequado, mas não precisa coincidir completamente com os dados, apenas precisa obedecer ao equilíbrio, produzindo uma saída aproximadamente semelhante. Aqui, X², X e X₀ representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se inserirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
E a tecnologia de aprendizado profundo baseada em redes neurais também passou por várias iterações e evoluções tecnológicas, como as redes neurais mais antigas mostradas na imagem acima, redes neurais feedforward, RNN, CNN, GAN, que por fim evoluíram para os modernos grandes modelos como GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção evolutiva das redes neurais, adicionando um conversor ( Transformer ), que serve para codificar dados de todas as modalidades (, como áudio, vídeo, imagens, etc. ) em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, alcançando a multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda foi na década de 60 do século XX, uma década após a proposta da tecnologia de IA. Esta onda foi provocada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento natural de linguagem e diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas nasceram, sendo o sistema especialista DENRAL, concluído sob a supervisão de uma universidade e uma instituição. Este sistema possui um conhecimento químico muito forte e gera respostas semelhantes às de um especialista em química através da inferência de perguntas. Este sistema especialista em química pode ser visto como uma combinação de um repositório de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 90, Pearl propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, o Deep Blue de uma certa empresa venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória foi vista como um marco para a inteligência artificial, com a tecnologia de IA alcançando um novo pico de desenvolvimento.
A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning apresentaram o conceito de deep learning, um algoritmo baseado em redes neurais artificiais para a aprendizagem de representações de dados. Após isso, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que estes dois últimos algoritmos moldaram esta terceira onda tecnológica, que também foi a época de ouro do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, o sistema de uma empresa venceu os humanos em um programa e conquistou o campeonato.
Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial), que aprende através de uma competição entre duas redes neurais, conseguindo gerar fotos que parecem realistas. Ao mesmo tempo, Goodfellow escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros de introdução mais importantes na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo causou um grande impacto tanto na academia quanto na indústria.
Em 2015, uma instituição foi criada, com várias personalidades conhecidas anunciando um investimento conjunto de 1 bilhão de dólares.
Em 2016, um sistema baseado em tecnologia de aprendizado profundo competiu contra o campeão mundial de Go e jogador profissional de nove dan, vencendo com um total de 4 a 1.
Em 2017, uma empresa desenvolveu o robô humanoide Sophia, que é chamado de o primeiro robô da história a obter a cidadania de primeira classe, possuindo uma rica gama de expressões faciais e capacidade de compreensão da linguagem humana.
Em 2017, uma empresa com uma rica reserva de talentos e tecnologia na área de inteligência artificial publicou o artigo "Attention is all you need" que propôs o algoritmo Transformer, e os modelos de linguagem em larga escala começaram a surgir.
Em 2018, uma instituição lançou o GPT construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, uma equipe lançou um sistema baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.
Em 2019, uma instituição lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, uma instituição desenvolveu o GPT-3, que possui 175 bilhões de parâmetros, 100 vezes mais que a versão anterior GPT-2. O modelo usou 570GB de texto para treinamento e pode alcançar desempenho de ponta em várias tarefas de NLP(, como responder perguntas, tradução e redação de artigos).
Em 2021, uma instituição lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
Lançamento de aplicações baseadas no modelo GPT-4 em janeiro de 2023, alcançando cem milhões de utilizadores em março, tornando-se a aplicação que atingiu mais rapidamente cem milhões de utilizadores na história.
Em 2024, uma instituição lançou o GPT-4 omni.
Cadeia de Indústria de Aprendizado Profundo
Os grandes modelos de linguagem atuais utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, esses grandes modelos geraram um auge na inteligência artificial, com muitos players entrando nesse setor. Também observamos uma explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos principalmente a cadeia de suprimentos dos algoritmos de aprendizado profundo. No setor de IA dominado por algoritmos de aprendizado profundo, como é composta a sua cadeia de suprimentos e qual é a situação atual das relações de oferta e demanda, bem como seu desenvolvimento futuro.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs liderados pelo GPT com base na tecnologia Transformer (, o processo é dividido em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization". Depois, esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado como um Token, enquanto cada caractere chinês pode ser grosseiramente considerado como dois Tokens. Esta também é a unidade básica usada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer um número suficiente de pares de dados à camada de entrada, semelhante ao exemplo da primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros para cada neurônio sob o modelo, é necessário um grande volume de dados nesse momento, e esse processo também é o que mais consome poder computacional, pois envolve iterações repetidas de neurônios tentando várias configurações de parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente utiliza-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.
O segundo passo, ajuste fino. O ajuste fino consiste em fornecer um conjunto de dados menor, mas de qualidade muito alta, para treinar, e essa mudança pode resultar em uma saída de modelo de maior qualidade, uma vez que o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode aprimorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um modelo totalmente novo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples, que é classificar os resultados de saída, portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Depois, usaremos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ) No entanto, às vezes também é necessário que a participação humana avalie a qualidade da saída do modelo (.
Em resumo, durante o processo de treinamento de modelos grandes, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a capacidade de GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensas para gerar resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto de generalização, por exemplo, no caso da função que usamos como exemplo, Y = aX + b, na verdade existem dois neurônios X e X0, portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, porque a essência ainda é uma linha reta. Se houver mais neurônios, então será possível iterar mais parâmetros, permitindo ajustar mais dados, essa é a razão pela qual grandes modelos produzem resultados extraordinários, e também é por isso que é comumente chamado de grande modelo, a essência é uma enorme quantidade de neurônios e parâmetros, bem como uma enorme quantidade de dados, ao mesmo tempo que requer uma enorme capacidade de computação.
Assim, o desempenho de modelos grandes é determinado principalmente por três fatores: a quantidade de parâmetros, a quantidade e qualidade dos dados, e a capacidade computacional. Suponhamos que a quantidade de parâmetros seja p, a quantidade de dados seja n) calculada em termos de número de Tokens(, então podemos calcular a quantidade de computação necessária com base em regras de experiência gerais, o que nos permitirá estimar aproximadamente a capacidade computacional que precisamos comprar e o tempo de treinamento.
A capacidade de computação é geralmente medida em Flops, representando uma operação de ponto flutuante, que é um termo genérico para adição, subtração, multiplicação e divisão de números não inteiros, como 2.5+3.557. O ponto flutuante representa a capacidade de incluir casas decimais, enquanto FP16 representa a precisão que suporta decimais, e FP32 é uma precisão mais comum. Com base em regras empíricas de prática, o pré-treinamento )Pre-traning( geralmente treina um grande modelo várias vezes ), necessitando cerca de 6np Flops, sendo 6 conhecido como constante da indústria. A inferência (Inference é o processo em que introduzimos um dado e aguardamos a saída do grande modelo ), dividindo-se em duas partes: entrada de n tokens e saída de n tokens, portanto, cerca de 2np Flops são necessários ao todo.
No início, usava-se chips de CPU para treinar e fornecer suporte computacional, mas depois começou-se a substituir gradualmente por GPUs, como os chips A100 e H100 de uma determinada empresa. Isso porque a CPU existe como computação geral, enquanto a GPU pode ser usada como computação especializada, superando de longe a CPU em eficiência energética. A GPU realiza operações de ponto flutuante principalmente através de um módulo chamado Tensor Core.