Недавнее развитие отрасли ИИ некоторыми людьми рассматривается как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность во многих отраслях, по оценкам, увеличив рабочую эффективность в США примерно на 20%. В то же время универсальность, приносимая большими моделями, считается новой парадигмой проектирования программного обеспечения, где прежний точный дизайн кода преобразуется в более универсальные встроенные структуры больших моделей, что позволяет программному обеспечению демонстрировать лучшие результаты и поддерживать более широкий спектр модальностей. Технология глубокого обучения действительно принесла четвертой волне процветания в отрасли ИИ, и эта волна также затронула индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития AI-отрасли, классификация технологий, а также влияние технологий глубокого обучения на отрасль. Будет проведен углубленный анализ текущего состояния и тенденций развития цепочки поставок в области глубокого обучения, включая GPU, облачные вычисления, источники данных, устройства на краю сети и другие аспекты. Будет исследовано, в чем заключается суть взаимосвязи между криптовалютами и AI-отраслью, а также проанализирована структура AI-цепочки поставок, связанная с криптовалютами.
История развития отрасли ИИ
Сфера искусственного интеллекта начала развиваться с 1950-х годов. Для реализации видения искусственного интеллекта академическое сообщество и промышленность в разные эпохи и с различным дисциплинарным контекстом разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", который подразумевает, что машины полагаются на данные для многократной итерации в задачах с целью улучшения производительности системы. Основные шаги включают подачу данных в алгоритмы, обучение модели на этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных прогнозных задач.
В настоящее время в машинном обучении существует три основных направления: соединительная теория, символизм и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение.
В настоящее время, представленный нейронными сетями коннекционизм занимает лидирующие позиции (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой, один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов ( и параметры ) становятся достаточными, появляется возможность подогнать сложные задачи общего типа. С помощью ввода данных можно постоянно настраивать параметры нейронов, в конечном итоге, пройдя через множество данных, этот нейрон достигнет оптимального состояния ( параметры ), что и называется "сила в чуде", и это также объясняет слово "глубокий" - достаточное количество слоев и нейронов.
Например, можно просто понять, что мы сконструировали функцию, которая при X=2 дает Y=3; при X=3 дает Y=5. Если мы хотим, чтобы эта функция работала для всех X, то нам нужно постоянно добавлять степень этой функции и ее параметры. Например, можно сконструировать функцию, удовлетворяющую этому условию, как Y = 2X - 1. Но если есть данные, такие как X=2, Y=11, то нужно реконструировать функцию, подходящую для этих трех точек данных. Используя GPU для грубой силы, выяснили, что Y = X2 - 3X + 5 подходит лучше всего, но не обязательно полностью совпадать с данными, главное - соблюдать баланс и выдавать примерно схожие результаты. Здесь X2, X и X0 представляют разные нейроны, а 1, -3 и 5 - это их параметры.
В этом случае, если мы введем большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерации параметров, чтобы адаптироваться к новым данным. Таким образом, мы сможем адаптироваться ко всем данным.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько итераций и эволюций технологий, таких как нейронные сети раннего поколения, сети с прямой связью, RNN, CNN, GAN, в конечном итоге эволюционировавшие в современные большие модели, использующие технологию Transformer, такую как GPT. Технология Transformer — это лишь одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д., в соответствующие числовые значения. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любому типу данных, что и реализует мультимодальность.
![Новая информация丨AI x Crypto:от нуля до вершины])https://img-cdn.gateio.im/webp-social/moments-7e025deb1fddcd5fa716b6f144701074.webp(
Развитие ИИ прошло через три волны технологий. Первая волна пришлась на 60-е годы 20 века, через десять лет после появления технологий ИИ. Эта волна вызвана развитием символистских технологий, которые решали проблемы общего естественного языка и диалога между человеком и машиной. В то же время были созданы экспертные системы, одна из которых, система DENRAL, была завершена под руководством одного университета и одного учреждения. Эта система обладает очень сильными знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, подобные ответам химического эксперта. Эта химическая экспертная система может рассматриваться как сочетание базы знаний по химии и системы вывода.
После экспертных систем в 1990-х годах Джудит Перл предложил байесовские сети, которые также называются сетями убеждений. В это же время Брукс предложил поведенческую робототехнику, что ознаменовало рождение бихевиоризма.
В 1997 году система глубокого обучения "Blue" компании победила чемпионата мира по шахматам Каспарова со счетом 3.5:2.5, эта победа считается вехой в искусственном интеллекте, и технологии ИИ пережили второй пик своего развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения представили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для обучения представления данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также был золотой период коннекционизма.
Многочисленные знаковые события также постепенно возникают в процессе исследования и развития технологий глубокого обучения, включая:
В 2011 году система одной компании победила человека и стала чемпионом в одной программе.
В 2014 году Гудфеллоу предложил генеративно-состязательную сеть GAN), которая обучается путем противостояния двух нейронных сетей и способна генерировать фотореалистичные изображения. В то же время Гудфеллоу написал книгу «Глубокое обучение», известную как «цветная книга», которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. представили алгоритм глубокого обучения в журнале «Природа», что сразу же вызвало огромный резонанс в академических кругах и промышленности.
В 2015 году, некая организация была создана, и несколько известных личностей объявили о совместном инвестировании 1 миллиард долларов.
В 2016 году система на основе технологий глубокого обучения провела матч против чемпиона мира по го и профессионального игрока девятого дана, одержав победу с общим счетом 4:1.
В 2017 году компания разработала гуманоидного робота по имени София, который стал первым роботом в истории, получившим статус полноценного гражданина, обладая богатым набором выражений лиц и способностью понимать человеческий язык.
В 2017 году компания с богатым кадровым и технологическим потенциалом в области искусственного интеллекта опубликовала статью «Attention is all you need», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году некое учреждение выпустило GPT, основанный на алгоритме Transformer, который на тот момент был одной из крупнейших языковых моделей.
В 2018 году одна команда представила систему на основе глубокого обучения, способную предсказывать структуру белков, что считается большим шагом вперед в области искусственного интеллекта.
В 2019 году некое учреждение выпустило GPT-2, эта модель обладает 1,5 миллиарда параметров.
В 2020 году разработанная некоторым учреждением GPT-3 имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в различных задачах обработки естественного языка, таких как ответ на вопросы, перевод и написание статей.
В 2021 году одна из организаций выпустила GPT-4, эта модель имеет 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение на основе модели GPT-4, в марте оно достигло ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В настоящее время все большие языковые модели основаны на методах глубокого обучения на основе нейронных сетей. Большие модели, возглавляемые GPT, вызвали волну интереса к искусственному интеллекту, и на этот рынок хлынули множество игроков. Мы также обнаружили, что спрос на данные и вычислительные мощности резко возрос, поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения. В AI-индустрии, доминируемой алгоритмами глубокого обучения, каково строение ее верхнего и нижнего уровней, каковы текущие условия и соотношение спроса и предложения, а также будущее развитие.
Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs, возглавляемых GPT, основанных на технологии Transformer, всего существует три этапа.
Перед обучением, поскольку модель основана на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Tokenization". После этого эти числовые значения называются токенами. В общем случае, одно английское слово или символ может грубо рассматриваться как один токен, в то время как каждый китайский иероглиф может грубо считаться за два токена. Это также является базовой единицей, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, подобных приведенному в первом разделе отчета примеру (X,Y), мы ищем оптимальные параметры для каждого нейрона в модели. На этом этапе требуется много данных, и этот процесс также является наиболее затратным по вычислительным ресурсам, поскольку необходимо многократно итеративно пробовать различные параметры нейронов. После завершения обучения на одной партии данных обычно используется та же партия данных для вторичного обучения с целью итеративного изменения параметров.
Шаг второй, дообучение. Дообучение заключается в использовании небольшого, но очень качественного объема данных для тренировки, такие изменения позволят модели выдавать более качественные результаты, поскольку предварительное обучение требует большого объема данных, но многие из них могут содержать ошибки или низкое качество. Этап дообучения способен повысить качество модели за счет использования качественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: это сортировка выходных результатов, поэтому реализация этой модели будет относительно простой, поскольку бизнес-сценарий довольно узкий. Затем с помощью этой модели мы будем определять, является ли выход нашей большой модели качественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также требуется человеческое участие для оценки качества выходных данных модели ).
Вкратце, в процессе обучения больших моделей предобучение требует очень большого объема данных, а также наибольших вычислительных мощностей GPU, в то время как дообучение требует более качественных данных для улучшения параметров; обучение с подкреплением может повторно итерировать параметры с помощью модели вознаграждения для получения результатов более высокого качества.
В процессе обучения, чем больше параметров, тем выше потолок обобщающей способности. Например, в нашем примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0. Поэтому, как бы ни изменялись параметры, данные, которые можно подогнать, крайне ограничены, поскольку по своей сути это все равно прямая линия. Если нейронов больше, то можно итеративно изменять больше параметров, что позволяет подогнать больше данных. Именно поэтому большие модели создают чудеса, и именно поэтому их называют большими моделями: по сути, это огромные количества нейронов и параметров, а также огромные объемы данных, при этом требуются огромные вычислительные мощности.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Мы предположим, что количество параметров равно p, объем данных равен n(, который рассчитывается по количеству токенов). Затем мы можем рассчитать необходимое количество вычислений с помощью общих эмпирических правил, что позволит нам приблизительно оценить необходимую вычислительную мощность и время обучения.
Вычислительная мощность обычно измеряется в Flops, что представляет собой одно плавающее вычисление. Плавающие вычисления - это общее название для операций сложения, вычитания, умножения и деления с нецелыми числами, например, 2.5+3.557. Плавающее обозначает, что могут быть десятичные числа, в то время как FP16 обозначает поддержку десятичной точности, а FP32 - это более распространенная точность. Согласно эмпирическим правилам, предварительная тренировка (Pre-traning) проходит (, как правило, множество раз ) для больших моделей, что требует примерно 6np Flops, 6 считается отраслевой константой. А вывод (Inference - это процесс, в котором мы вводим данные и ждем вывода от большой модели ), разделенный на две части: ввод n токенов и вывод n токенов, так что в общей сложности потребуется примерно 2np Flops.
В начале использовались процессоры CPU для обучения и предоставления вычислительной мощности, но затем постепенно начали использовать графические процессоры GPU, такие как чипы A100, H100 от одной компании. Поскольку CPU существует как универсальный вычислительный элемент, GPU может использоваться как специализированный вычислительный элемент, превосходя CPU по энергоэффективности. GPU выполняет операции с плавающей запятой в основном с помощью модуля, называемого Tensor Core.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
4
Поделиться
комментарий
0/400
GreenCandleCollector
· 07-25 11:50
Бычий рынок, в тот день, когда мы раздавали сладости.
Посмотреть ОригиналОтветить0
StableNomad
· 07-23 01:17
на самом деле... видел этот фильм раньше с ICO в '17, но, честно говоря, потенциал ROI здесь ощущается иначе
Посмотреть ОригиналОтветить0
0xSherlock
· 07-23 01:14
Деньги приходят слишком медленно, не могу обеспечить богатство для всей семьи.
Посмотреть ОригиналОтветить0
GasFeeCry
· 07-23 00:56
мир криптовалют не имеет тренда, всё зависит от везения
ИИ и криптоактивы: технологии глубокого обучения ведут индустриальную революцию
AI x Crypto: от нуля до вершины
Недавнее развитие отрасли ИИ некоторыми людьми рассматривается как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность во многих отраслях, по оценкам, увеличив рабочую эффективность в США примерно на 20%. В то же время универсальность, приносимая большими моделями, считается новой парадигмой проектирования программного обеспечения, где прежний точный дизайн кода преобразуется в более универсальные встроенные структуры больших моделей, что позволяет программному обеспечению демонстрировать лучшие результаты и поддерживать более широкий спектр модальностей. Технология глубокого обучения действительно принесла четвертой волне процветания в отрасли ИИ, и эта волна также затронула индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития AI-отрасли, классификация технологий, а также влияние технологий глубокого обучения на отрасль. Будет проведен углубленный анализ текущего состояния и тенденций развития цепочки поставок в области глубокого обучения, включая GPU, облачные вычисления, источники данных, устройства на краю сети и другие аспекты. Будет исследовано, в чем заключается суть взаимосвязи между криптовалютами и AI-отраслью, а также проанализирована структура AI-цепочки поставок, связанная с криптовалютами.
История развития отрасли ИИ
Сфера искусственного интеллекта начала развиваться с 1950-х годов. Для реализации видения искусственного интеллекта академическое сообщество и промышленность в разные эпохи и с различным дисциплинарным контекстом разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", который подразумевает, что машины полагаются на данные для многократной итерации в задачах с целью улучшения производительности системы. Основные шаги включают подачу данных в алгоритмы, обучение модели на этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных прогнозных задач.
В настоящее время в машинном обучении существует три основных направления: соединительная теория, символизм и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение.
В настоящее время, представленный нейронными сетями коннекционизм занимает лидирующие позиции (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой, один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов ( и параметры ) становятся достаточными, появляется возможность подогнать сложные задачи общего типа. С помощью ввода данных можно постоянно настраивать параметры нейронов, в конечном итоге, пройдя через множество данных, этот нейрон достигнет оптимального состояния ( параметры ), что и называется "сила в чуде", и это также объясняет слово "глубокий" - достаточное количество слоев и нейронов.
Например, можно просто понять, что мы сконструировали функцию, которая при X=2 дает Y=3; при X=3 дает Y=5. Если мы хотим, чтобы эта функция работала для всех X, то нам нужно постоянно добавлять степень этой функции и ее параметры. Например, можно сконструировать функцию, удовлетворяющую этому условию, как Y = 2X - 1. Но если есть данные, такие как X=2, Y=11, то нужно реконструировать функцию, подходящую для этих трех точек данных. Используя GPU для грубой силы, выяснили, что Y = X2 - 3X + 5 подходит лучше всего, но не обязательно полностью совпадать с данными, главное - соблюдать баланс и выдавать примерно схожие результаты. Здесь X2, X и X0 представляют разные нейроны, а 1, -3 и 5 - это их параметры.
В этом случае, если мы введем большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итерации параметров, чтобы адаптироваться к новым данным. Таким образом, мы сможем адаптироваться ко всем данным.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько итераций и эволюций технологий, таких как нейронные сети раннего поколения, сети с прямой связью, RNN, CNN, GAN, в конечном итоге эволюционировавшие в современные большие модели, использующие технологию Transformer, такую как GPT. Технология Transformer — это лишь одно направление эволюции нейронных сетей, которое добавляет преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т. д., в соответствующие числовые значения. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети адаптироваться к любому типу данных, что и реализует мультимодальность.
![Новая информация丨AI x Crypto:от нуля до вершины])https://img-cdn.gateio.im/webp-social/moments-7e025deb1fddcd5fa716b6f144701074.webp(
Развитие ИИ прошло через три волны технологий. Первая волна пришлась на 60-е годы 20 века, через десять лет после появления технологий ИИ. Эта волна вызвана развитием символистских технологий, которые решали проблемы общего естественного языка и диалога между человеком и машиной. В то же время были созданы экспертные системы, одна из которых, система DENRAL, была завершена под руководством одного университета и одного учреждения. Эта система обладает очень сильными знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, подобные ответам химического эксперта. Эта химическая экспертная система может рассматриваться как сочетание базы знаний по химии и системы вывода.
После экспертных систем в 1990-х годах Джудит Перл предложил байесовские сети, которые также называются сетями убеждений. В это же время Брукс предложил поведенческую робототехнику, что ознаменовало рождение бихевиоризма.
В 1997 году система глубокого обучения "Blue" компании победила чемпионата мира по шахматам Каспарова со счетом 3.5:2.5, эта победа считается вехой в искусственном интеллекте, и технологии ИИ пережили второй пик своего развития.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения представили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для обучения представления данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали эту третью технологическую волну, и это также был золотой период коннекционизма.
Многочисленные знаковые события также постепенно возникают в процессе исследования и развития технологий глубокого обучения, включая:
В 2011 году система одной компании победила человека и стала чемпионом в одной программе.
В 2014 году Гудфеллоу предложил генеративно-состязательную сеть GAN), которая обучается путем противостояния двух нейронных сетей и способна генерировать фотореалистичные изображения. В то же время Гудфеллоу написал книгу «Глубокое обучение», известную как «цветная книга», которая является одной из важных вводных книг в области глубокого обучения.
В 2015 году Хинтон и др. представили алгоритм глубокого обучения в журнале «Природа», что сразу же вызвало огромный резонанс в академических кругах и промышленности.
В 2015 году, некая организация была создана, и несколько известных личностей объявили о совместном инвестировании 1 миллиард долларов.
В 2016 году система на основе технологий глубокого обучения провела матч против чемпиона мира по го и профессионального игрока девятого дана, одержав победу с общим счетом 4:1.
В 2017 году компания разработала гуманоидного робота по имени София, который стал первым роботом в истории, получившим статус полноценного гражданина, обладая богатым набором выражений лиц и способностью понимать человеческий язык.
В 2017 году компания с богатым кадровым и технологическим потенциалом в области искусственного интеллекта опубликовала статью «Attention is all you need», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.
В 2018 году некое учреждение выпустило GPT, основанный на алгоритме Transformer, который на тот момент был одной из крупнейших языковых моделей.
В 2018 году одна команда представила систему на основе глубокого обучения, способную предсказывать структуру белков, что считается большим шагом вперед в области искусственного интеллекта.
В 2019 году некое учреждение выпустило GPT-2, эта модель обладает 1,5 миллиарда параметров.
В 2020 году разработанная некоторым учреждением GPT-3 имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в различных задачах обработки естественного языка, таких как ответ на вопросы, перевод и написание статей.
В 2021 году одна из организаций выпустила GPT-4, эта модель имеет 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение на основе модели GPT-4, в марте оно достигло ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году некое учреждение выпустит GPT-4 omni.
! Новичок в популярной науке丨AI x Crypto: от нуля до пика
Цепочка поставок в глубоком обучении
В настоящее время все большие языковые модели основаны на методах глубокого обучения на основе нейронных сетей. Большие модели, возглавляемые GPT, вызвали волну интереса к искусственному интеллекту, и на этот рынок хлынули множество игроков. Мы также обнаружили, что спрос на данные и вычислительные мощности резко возрос, поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения. В AI-индустрии, доминируемой алгоритмами глубокого обучения, каково строение ее верхнего и нижнего уровней, каковы текущие условия и соотношение спроса и предложения, а также будущее развитие.
Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs, возглавляемых GPT, основанных на технологии Transformer, всего существует три этапа.
Перед обучением, поскольку модель основана на Transformer, преобразователь должен преобразовать текстовый ввод в числовые значения, этот процесс называется "Tokenization". После этого эти числовые значения называются токенами. В общем случае, одно английское слово или символ может грубо рассматриваться как один токен, в то время как каждый китайский иероглиф может грубо считаться за два токена. Это также является базовой единицей, используемой для оценки GPT.
Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, подобных приведенному в первом разделе отчета примеру (X,Y), мы ищем оптимальные параметры для каждого нейрона в модели. На этом этапе требуется много данных, и этот процесс также является наиболее затратным по вычислительным ресурсам, поскольку необходимо многократно итеративно пробовать различные параметры нейронов. После завершения обучения на одной партии данных обычно используется та же партия данных для вторичного обучения с целью итеративного изменения параметров.
Шаг второй, дообучение. Дообучение заключается в использовании небольшого, но очень качественного объема данных для тренировки, такие изменения позволят модели выдавать более качественные результаты, поскольку предварительное обучение требует большого объема данных, но многие из них могут содержать ошибки или низкое качество. Этап дообучения способен повысить качество модели за счет использования качественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: это сортировка выходных результатов, поэтому реализация этой модели будет относительно простой, поскольку бизнес-сценарий довольно узкий. Затем с помощью этой модели мы будем определять, является ли выход нашей большой модели качественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ( Однако иногда также требуется человеческое участие для оценки качества выходных данных модели ).
Вкратце, в процессе обучения больших моделей предобучение требует очень большого объема данных, а также наибольших вычислительных мощностей GPU, в то время как дообучение требует более качественных данных для улучшения параметров; обучение с подкреплением может повторно итерировать параметры с помощью модели вознаграждения для получения результатов более высокого качества.
В процессе обучения, чем больше параметров, тем выше потолок обобщающей способности. Например, в нашем примере с функцией Y = aX + b, на самом деле есть два нейрона X и X0. Поэтому, как бы ни изменялись параметры, данные, которые можно подогнать, крайне ограничены, поскольку по своей сути это все равно прямая линия. Если нейронов больше, то можно итеративно изменять больше параметров, что позволяет подогнать больше данных. Именно поэтому большие модели создают чудеса, и именно поэтому их называют большими моделями: по сути, это огромные количества нейронов и параметров, а также огромные объемы данных, при этом требуются огромные вычислительные мощности.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Мы предположим, что количество параметров равно p, объем данных равен n(, который рассчитывается по количеству токенов). Затем мы можем рассчитать необходимое количество вычислений с помощью общих эмпирических правил, что позволит нам приблизительно оценить необходимую вычислительную мощность и время обучения.
Вычислительная мощность обычно измеряется в Flops, что представляет собой одно плавающее вычисление. Плавающие вычисления - это общее название для операций сложения, вычитания, умножения и деления с нецелыми числами, например, 2.5+3.557. Плавающее обозначает, что могут быть десятичные числа, в то время как FP16 обозначает поддержку десятичной точности, а FP32 - это более распространенная точность. Согласно эмпирическим правилам, предварительная тренировка (Pre-traning) проходит (, как правило, множество раз ) для больших моделей, что требует примерно 6np Flops, 6 считается отраслевой константой. А вывод (Inference - это процесс, в котором мы вводим данные и ждем вывода от большой модели ), разделенный на две части: ввод n токенов и вывод n токенов, так что в общей сложности потребуется примерно 2np Flops.
В начале использовались процессоры CPU для обучения и предоставления вычислительной мощности, но затем постепенно начали использовать графические процессоры GPU, такие как чипы A100, H100 от одной компании. Поскольку CPU существует как универсальный вычислительный элемент, GPU может использоваться как специализированный вычислительный элемент, превосходя CPU по энергоэффективности. GPU выполняет операции с плавающей запятой в основном с помощью модуля, называемого Tensor Core.