В 2012 году в кругу ИИ произошло два крупных события.В хронологическом порядке первым стал выпуск Google Brain, давней команды Google, в качестве своей «дебютной работы» — сети глубокого обучения «Google Cat». », который может распознавать кошек, с распознаванием 74,8%. Показатель точности на 0,8% выше, чем 74% алгоритма-победителя известного конкурса распознавания изображений ImageNet в прошлом году.
Но громкие моменты Google длились всего несколько месяцев. В декабре 2012 года был выпущен победитель последнего конкурса ImageNet.Мастер глубокого обучения Хинтон и его ученики принесли свёрточную нейронную сеть AlexNet, которая подняла показатель точности распознавания до 84%, тем самым начав революцию ИИ следующего поколения. десятилетие Google Cat был похоронен в пыли истории.
Хинтон с двумя учениками, 2012 г.
Не только сама модель ImageNet потрясла индустрию. Эта нейронная сеть, которая требует 14 миллионов изображений и в общей сложности 262 петафлопс операций с плавающей запятой, за неделю обучения использовала всего четыре NVIDIA Geforce GTX 580. Для справки, Google Cat использовал 10 миллионов изображений, 16 000 процессоров и 1000 компьютеров. [1] 。
Ходят слухи, что Google в этом году также тайно участвовала в конкурсе, и полученный ею шок напрямую отразился на следующей акции: Google потратила 44 миллиона долларов на приобретение команды Hinton и тут же разместила заказ у Nvidia на большое количество графических процессоров. для искусственного интеллекта.Обучение, а заодно и "заметание товара" тоже такие гиганты как майкрософт и фейсбук.
** Крупнейшим победителем стала Nvidia, и цена ее акций выросла максимум в 121 раз за следующие 10 лет. Рождается империя. **
Но над империей постепенно сгущались две темные тучи. Google, которая тогда закупала товары у Nvidia, три года спустя ошеломительно дебютировала с AlphaGo и победила чемпиона среди людей Ке Цзе в 2017 году. Проницательные люди обнаружили, что чипом, управляющим AlphaGo, является уже не графический процессор Nvidia, а чип TPU собственной разработки Google.
Спустя три года аналогичный сценарий повторился. Tesla, которую Хуан Ренсюнь когда-то считал эталонным клиентом, также попрощалась с графическим процессором Nvidia.Сначала она выпустила автомобильный чип FSD с NPU в качестве ядра, а затем отказалась от чипа D1, используемого для создания обучающих кластеров ИИ.Ли потерял два из самые важные клиенты в эпоху ИИ.
К 2022 году мировой ИТ-цикл войдет в нисходящую фазу. Крупные компании, занимающиеся облачными вычислениями, один за другим будут сокращать бюджеты на закупку графических процессоров для центров обработки данных. Продать A100/H100 в Китай невозможно.Что касается высококлассных видеокарт, запасы Nvidia выросли, а цена ее акций упала на 2/3 по сравнению с пиковым значением.
В конце 2022 года родился ChatGPT, а GPU, как топливо для масштабной «алхимии», снова были разграблены, Nvidia получила передышку, но последовала третья темная туча: 18 апреля 2023 года известные технологические СМИ Информация прервала новость: * Microsoft, инициатор этого раунда волны искусственного интеллекта, тайно разрабатывает собственный чип искусственного интеллекта* [2] 。
Этот чип под названием Athena производится TSMC по усовершенствованному 5-нм техпроцессу, а численность команды разработчиков Microsoft приближается к 300. Очевидно, что целью этого чипа является замена дорогого A100/H100, обеспечение вычислительной мощности для OpenAI и, в конечном итоге, перехват пирога у Nvidia через облачный сервис Microsoft Azure.
Microsoft в настоящее время является крупнейшим покупателем Nvidia H100, и даже ходили слухи, что она «закроет» годовые производственные мощности H100. Сигнал о распаде от Microsoft, несомненно, является громом среди ясного неба.Вы должны знать, что даже когда Intel была в самом темном состоянии, ни один из ее клиентов «не осмеливается» производить свои собственные процессорные чипы (за исключением Apple, которая не продает их за границу). .
Хотя Nvidia в настоящее время монополизирует 90% рынка вычислительной мощности ИИ с помощью GPU+NVlink+CUDA, в **империи появилась первая трещина. **
01, графический процессор, созданный не для ИИ
С самого начала графические процессоры не предназначались для ИИ.
В октябре 1999 года Nvidia выпустила GeForce 256, чип для обработки графики, основанный на 220-нм техпроцессе TSMC и содержащий 23 миллиона транзисторов. Nvidia извлекла инициалы «GPU» из графического процессора и сегодня назвала GeForce 256 ** «первым в мире GPU».
В это время искусственный интеллект уже много лет молчит, особенно в области глубоких нейронных сетей. Будущие лауреаты премии Тьюринга, такие как Джеффри Хинтон и Янн ЛеКун, все еще сидят на академической скамье, и они никогда не думают о своей карьере. будет полностью заменен графическим процессором, изначально разработанным для геймеров.
Для кого создан GPU? изображение. Точнее, он был создан, чтобы освободить центральный процессор от рутинной работы по отображению графики. Основной принцип отображения изображения состоит в том, чтобы разделить изображение каждого кадра на отдельные пиксели, а затем выполнить несколько процессов рендеринга, таких как обработка вершин, примитивная обработка, растеризация, обработка фрагментов, обработка пикселей и т. д., и, наконец, вывести их на экран.
Источник процесса обработки от пикселей к изображениям: графический сборник
Почему вы говорите, что это тяжелая работа? Решите простую арифметическую задачу:
Предполагая, что на экране 300 000 пикселей, рассчитанных при частоте кадров 60 кадров в секунду, необходимо выполнить 18 миллионов рендерингов в секунду, каждый раз включая пять вышеуказанных шагов, соответствующих пяти инструкциям, то есть ЦП должен выполнить 90 миллионов операций в секунду, чтобы реализовать односекундное представление экрана.Для справки, самый производительный процессор Intel в то время имел только 60 миллионов вычислений в секунду.
Это не потому, что ЦП слаб, а потому, что он хорош в планировании потоков, поэтому больше места отводится блоку управления и блоку хранения, а вычислительный блок, используемый для вычислений, занимает только 20% места. Напротив, графический процессор занимает более 80% пространства в вычислительном блоке, который обеспечивает возможности сверхпараллельных вычислений и больше подходит для фиксированной, повторяющейся и скучной работы по отображению изображения.
Внутренняя структура процессора и графического процессора, зеленая часть — вычислительный блок.
Лишь несколько лет спустя некоторые исследователи искусственного интеллекта поняли, что графические процессоры с такими характеристиками также подходят для обучения глубокому обучению. Многие классические архитектуры глубоких нейронных сетей были предложены еще во второй половине 20 века, но из-за отсутствия вычислительной техники для их обучения многие исследования могут вестись только «на бумаге», и разработка давно застопорилась. время.
Выстрел в октябре 1999 года привел GPU к искусственному интеллекту. Учебный процесс глубокого обучения заключается в выполнении иерархических операций над каждым входным значением в соответствии с функциями и параметрами каждого слоя нейронной сети и, наконец, в получении выходного значения, что требует большого количества матричных операций, таких как рендеринг графики — это случается, что GPU лучше всего справляется с этим.
Типичная архитектура глубокой нейронной сети; источник: в направлении науки о данных
Однако изображение показывает, что, хотя объем обработки данных огромен, большинство шагов фиксированы.Как только глубокая нейронная сеть будет применена к области принятия решений, она будет включать сложные ситуации, такие как структуры ветвей и параметры каждый слой должен быть обучен на основе большого количества положительных и отрицательных отзывов. Продолжайте пересматривать. Эти различия таят в себе скрытые опасности для адаптации графических процессоров к ИИ в будущем.
Нынешний генеральный менеджер Amazon AI/ML Кумар Челлапилла — первый ученый, который съел крабов на GPU. В 2006 году он впервые использовал графическую карту Nvidia GeForce 7800 для реализации сверточной нейронной сети (CNN) и обнаружил, что она работает в 4 раза быстрее, чем при использовании ЦП. Это самая ранняя известная попытка использовать GPU для глубокого обучения. [3] 。
Кумар Челлапилла и Nvidia Geforce 7800
Работа Кумара не привлекла широкого внимания, в основном из-за высокой сложности программирования на базе GPU. Но как раз в это время в 2007 году Nvidia запустила платформу CUDA, которая значительно упростила разработчикам использование GPU для обучения глубоких нейронных сетей, что вселило в сторонников глубокого обучения больше надежды.
Затем, в 2009 году, Ву Энда из Стэнфорда и другие опубликовали прорывную статью. [6] , GPU сокращает время обучения ИИ с недель до часов благодаря более чем 70-кратной вычислительной мощности процессора. Эта статья указывает путь к аппаратной реализации искусственного интеллекта. Графический процессор значительно ускорил процесс перехода ИИ из бумаги в реальность.
Эндрю Нг (吴恩达)
Стоит отметить, что Ву Энда присоединился к Google Brain в 2011 году и является одним из руководителей упомянутого в начале проекта Google Cat. Причина, по которой Google Brain в конце концов не смогла использовать GPU, неизвестна посторонним, но до и после того, как Ву Энда покинул Google, чтобы присоединиться к Baidu, ходили слухи, что это произошло из-за того, что отношение Google к GPU было неясным.
**После исследований бесчисленных людей эстафета наконец была передана мастеру глубокого обучения Хинтону, и время уже указывало на 2012 год. **
В 2012 году Хинтон и два студента, Алекс Крижевский и Илья Суцкеверз, разработали глубокую сверточную нейронную сеть AlexNet и планировали участвовать в конкурсе ImageNet в этом году. Но проблема в том, что обучение AlexNet на CPU может занять несколько месяцев, поэтому они обратили внимание на GPU.
Этот графический процессор, который имеет решающее значение в истории развития глубокого обучения, является знаменитой «графической картой с ядерной бомбой» GTX 580. Являясь флагманским продуктом новейшей архитектуры Fermi от Nvidia, GTX 580 начинена 512 ядрами CUDA (108 в предыдущем поколении).В то время как вычислительная мощность стремительно растет, преувеличенное энергопотребление и проблемы с выделением тепла также сделали Nvidia прозванной «фабрикой ядерных бомб». ".
Мышьяк А, мед Б. По сравнению с «плавностью» при обучении нейросетей на GPU, о проблеме тепловыделения и говорить нечего. Команда Hinton успешно завершила программирование на платформе CUDA от Nvidia.При поддержке двух графических карт GTX 580 обучение 14 миллионов изображений заняло всего одну неделю, и AlexNet успешно выиграл чемпионат.
** Благодаря влиянию конкурса ImageNet и самого Хинтона все исследователи искусственного интеллекта мгновенно осознали важность графического процессора. **
Два года спустя Google использовала модель GoogLeNet для участия в ImageNet и выиграла чемпионат с показателем точности 93%, используя графические процессоры NVIDIA.В этом году количество графических процессоров, используемых всеми участвующими командами, взлетело до 110. Вне соревнований GPU стал «обязательным продуктом потребления» для глубокого обучения, благодаря чему Хуан Ренсюнь получает постоянный поток заказов.
Это позволило Nvidia избавиться от тени фиаско на рынке мобильной связи.После выхода iPhone в 2007 году пирог чипов для смартфонов стремительно расширялся.Nvidia также пыталась получить кусок пирога от Samsung, Qualcomm и MediaTek.Проблема отвода тепла не удалась. В конце концов, именно область искусственного интеллекта, спасенная GPU, дала Nvidia вторую кривую роста.
Но ведь GPU не рожден для обучения нейросетей, чем быстрее будет развиваться искусственный интеллект, тем больше будут обнажаться эти проблемы.
Например, хотя GPU существенно отличается от CPU, оба они в основном следуют структуре фон Неймана, а хранение и работа разделены. Узкое место в эффективности, вызванное этим разделением, в конце концов, шаги обработки изображения относительно фиксированы и могут быть решены за счет большего количества параллельных операций, но это очень фатально в нейронной сети с множеством ветвящихся структур.
Каждый раз, когда нейронная сеть добавляет слой или ветку, ей необходимо увеличивать доступ к памяти для хранения данных для возврата, а затраты времени на это неизбежны. Особенно в эпоху больших моделей, чем больше модель, тем больше операций доступа к памяти необходимо выполнить — энергия, потребляемая при доступе к памяти, во много раз выше, чем при вычислениях.
Простая аналогия: GPU — это мускулистый человек (со многими вычислительными блоками), но для каждой полученной инструкции он должен вернуться и посмотреть инструкцию по эксплуатации (память) Наконец, по мере увеличения размера и сложности модели , мужчина Время на реальную работу очень ограничено, а вместо этого я так устал листать мануалы, что у меня пена изо рта.
Проблемы с памятью — лишь один из многих «неудобств» графических процессоров в приложениях с глубокими нейронными сетями. Nvidia знала об этих проблемах с самого начала и быстро начала «волшебно модифицировать» GPU, чтобы сделать его более подходящим для сценариев приложений искусственного интеллекта; и игроки с ИИ, которые остро чувствуют огонь, также прокрадываются, пытаясь использовать дефекты графического процессора, чтобы взломать угол империи Хуан Ренсюня.
**Начинается наступательный и оборонительный бой. **
02, темная битва между Google и Nvidia
Столкнувшись с огромным спросом на вычислительную мощность ИИ и врожденными дефектами графического процессора, Хуан Ренсюнь предложил два набора решений, которые должны идти рука об руку.
**Первый набор состоит в том, чтобы продолжать яростно наращивать вычислительную мощность по пути «старая фея вычислительной мощности обладает безграничной магической силой». ** В эпоху, когда спрос на вычислительную мощность ИИ удваивается каждые 3,5 месяца, вычислительная мощность — это пряник, висящий перед глазами компаний, занимающихся искусственным интеллектом, заставляющий их ругать Хуан Ренсюня за его превосходные навыки владения мечом и хватать его, как собака. Все возможности Nvidia.
**Второй набор предназначен для постепенного устранения несоответствия между сценариями GPU и искусственного интеллекта за счет «улучшенных инноваций». **Эти проблемы включают, помимо прочего, энергопотребление, стены памяти, узкие места в пропускной способности, низкоточные вычисления, высокоскоростные соединения, оптимизацию конкретных моделей... С 2012 года Nvidia внезапно ускорила скорость обновления архитектуры.
После того, как Nvidia выпустила CUDA, она использовала унифицированную архитектуру для поддержки двух основных сценариев: графики и вычислений. Архитектура первого поколения дебютировала в 2007 году и получила название Тесла не потому, что Хуан Рэнсюнь хотел показать свою благосклонность к Маску, а чтобы отдать дань уважения физику Николе Тесле (самым ранним поколением была архитектура Кюри).
С тех пор каждое поколение архитектуры GPU NVIDIA было названо в честь известных ученых, как показано на рисунке ниже. В каждой итерации архитектуры Nvidia продолжает наращивать вычислительную мощность, при этом совершенствуясь без «разрыва мышц и костей».
Например, архитектура Fermi второго поколения в 2011 году имела недостаток рассеивания тепла, в то время как архитектура Kepler третьего поколения в 2012 году изменила общую идею дизайна с высокой производительности на энергоэффективную для улучшения рассеивания тепла; и для решения вышеупомянутые проблемы Для решения проблемы «мышечных дураков» в архитектуре Maxwell четвертого поколения в 2014 году было добавлено больше схем логического управления внутри, чтобы облегчить точное управление.
Чтобы адаптироваться к сцене ИИ, «волшебно модифицированный» графический процессор Nvidia в какой-то степени все больше и больше становится похожим на ЦП — точно так же, как превосходная способность планирования ЦП достигается за счет вычислительной мощности, Nvidia приходится ограничивать себя. стек вычислительных ядер. Однако как бы вы ни меняли GPU с грузом универсальности, в сценарии ИИ будет сложно сопоставить выделенный чип.
** Первым, кто атаковал Nvidia, был Google, который первым начал массово закупать графические процессоры для вычислений ИИ. **
После демонстрации своих мускулов с помощью GoogLeNet в 2014 году Google больше публично не участвовала в конкурсе по машинному распознаванию и вступила в сговор с целью разработки чипов для искусственного интеллекта. В 2016 году Google вышла в лидеры с AlphaGo.После победы в Li Shishi она сразу же запустила собственный чип TPU для искусственного интеллекта, который застал Nvidia врасплох с новой архитектурой, «рожденной для искусственного интеллекта».
TPU — это аббревиатура от Tensor Processing Unit, а китайское название — «tensor processing unit». Если «волшебная реформа» графического процессора Nvidia состоит в том, чтобы снести восточную стену, чтобы компенсировать западную стену, то TPU должен фундаментально снизить потребность в памяти и соединении и в наибольшей степени передать пространство чипа вычислениям. Конкретно два Великих средства:
**Первая — количественная технология. **Современные компьютерные вычисления обычно используют высокоточные данные, которые занимают много памяти, но на самом деле большинству вычислений нейронных сетей не требуется точность для достижения 32-битных или 16-битных вычислений с плавающей запятой.Суть квантования Технология в основном состоит в том, чтобы комбинировать 32-битные/16-битные числа, аппроксимированные до 8-битных целых чисел, сохраняя соответствующую точность и уменьшая требования к памяти.
Второй — систолический массив, представляющий собой массив умножения матриц, который является одним из наиболее важных различий между TPU и GPU. Проще говоря, операции нейронной сети требуют большого количества матричных операций.ГП может только разобрать матричные вычисления на несколько векторных вычислений шаг за шагом.Каждый раз, когда группа завершена, ему необходимо получить доступ к памяти и сохранить результаты этот слой, пока не будут завершены все векторные вычисления, а затем объедините результаты каждого слоя, чтобы получить выходное значение.
В ТПУ тысячи вычислительных блоков напрямую соединены для формирования массива умножения матриц.Ядро вычислений может выполнять матричные вычисления напрямую.За исключением загрузки данных и функций в начале, нет необходимости обращаться к блокам хранения, которые значительно уменьшает доступ.Частота значительно ускоряет скорость вычислений TPU, а потребление энергии и занимаемое физическое пространство также значительно снижаются.
Сравнение времени доступа CPU, GPU, TPU к памяти (памяти)
TPU Google очень быстр, и от проектирования, проверки, массового производства до окончательного развертывания в собственном центре обработки данных потребовалось всего 15 месяцев. После тестирования производительность и энергопотребление TPU в CNN, LSTM, MLP и других сценариях AI значительно превзошли GPU Nvidia за тот же период. **Все давление сразу было брошено на Nvidia. **
Быть ударом в спину крупного заказчика неудобно, но Nvidia не выдержит и проиграет, и началось перетягивание каната.
Через пять месяцев после того, как Google запустила TPU, Nvidia также представила архитектуру Pascal 16-нм техпроцесса. С одной стороны, новая архитектура представляет известную технологию высокоскоростного двустороннего соединения NVLink, которая значительно улучшает пропускную способность соединения, с другой стороны, она имитирует технологию квантования TPU и повышает вычислительную эффективность нейронной сети. за счет снижения точности данных.
В 2017 году Nvidia запустила Volta, первую архитектуру, разработанную специально для глубокого обучения, которая впервые представила TensorCore, который специально используется для матричных операций, хотя массив умножения 4 × 4 такой же, как массив импульсов TPU 256 × 256. Соотношение немного убогое, но это тоже компромисс, сделанный на основе сохранения гибкости и универсальности.
Матричная операция 4x4, реализованная TensorCore в Nvidia V100
Руководители NVIDIA заявили клиентам: ** «Volta — это не обновление Pascal, а совершенно новая архитектура».**
Google тоже идет в ногу со временем: после 2016 года за пять лет TPU обновили 3 поколения: TPUv2 – в 2017 году, TPUv3 – в 2018 году и TPUv4 – в 2021 году. [4] : **TPU v4 в 1,2–1,7 раза быстрее, чем Nvidia A100, при снижении энергопотребления в 1,3–1,9 раза. **
Google не продает чипы TPU внешнему миру и в то же время продолжает закупать графические процессоры Nvidia в больших количествах, что заставляет конкуренцию чипов AI между ними оставаться в «холодной войне», а не в «открытой конкуренции». Но ведь Google развертывает TPU в собственной системе облачных сервисов, чтобы предоставлять услуги вычислительной мощности ИИ внешнему миру, что, несомненно, сокращает потенциальный рынок Nvidia.
Генеральный директор Google Сундар Пича демонстрирует TPU v4
Пока эти двое «сражаются в темноте», прогресс в области искусственного интеллекта также стремительно прогрессирует. В 2017 году Google предложила революционную модель-трансформер, а затем OpenAI разработала GPT-1 на основе Transformer.Началась гонка вооружений больших моделей, и спрос на вычислительную мощность ИИ привел к второму ускорению с момента появления AlexNet в 2012 году.
Осознав новую тенденцию, Nvidia запустила архитектуру Hopper в 2022 году, впервые внедрив механизм ускорения Transformer на аппаратном уровне, заявив, что он может увеличить время обучения большой языковой модели на основе Transformer в 9 раз. Основываясь на архитектуре Hopper, Nvidia выпустила «самый мощный графический процессор на поверхности» — H100.
H100 — это настоящий «монстр стежков» от Nvidia. С одной стороны, он представляет различные технологии оптимизации ИИ, такие как квантование, вычисление матриц (Tensor Core 4.0) и механизм ускорения Transformer, а с другой стороны, он полон традиционных сильных сторон Nvidia, таких как 7296 CUDA Core, 80 ГБ памяти HBM2 и технология подключения NVLink 4.0 со скоростью до 900 ГБ/с.
Взяв H100 в руки, Nvidia временно вздохнула с облегчением: на рынке нет серийного чипа лучше, чем H100.
Секретные качели Google и Nvidia также являются взаимным достижением: Nvidia заимствовала множество инновационных технологий от Google, а передовые исследования Google в области искусственного интеллекта также полностью выиграли от инноваций графического процессора Nvidia. сводится к уровню, который может использоваться большой языковой моделью «на цыпочках». Те, кто находится в центре внимания, такие как OpenAI, также стоят на плечах этих двоих.
Но чувства принадлежат чувствам, а бизнес принадлежит бизнесу. Наступательная и оборонительная битва вокруг графических процессоров сделала отрасль более уверенной в одном: **графический процессор не является оптимальным решением для ИИ, а специализированные ASIC могут разрушить монополию Nvidia. ** Трещины были открыты, и Google не будет единственным, кто следует вкусу.
**Особенно вычислительная мощность стала самым определенным спросом в эпоху AGI, и все хотят сидеть за одним столом с NVIDIA во время еды. **
03, трещина, которая расширяется
Помимо OpenAI, на этом этапе бума ИИ есть еще две готовые компании: компания Midjourney, занимающаяся рисованием ИИ, чья способность контролировать различные стили рисования пугает бесчисленное количество художников, использующих углерод; является Authropic, основатель которого из OpenAI, диалоговый робот Клод играл туда-сюда с ChatGPT.
** Но ни одна из этих двух компаний не приобрела графические процессоры Nvidia для создания суперкомпьютеров, а воспользовалась вычислительными услугами Google. **
Чтобы справиться со взрывным ростом вычислительной мощности ИИ, Google построила суперкомпьютер (TPU v4 Pod) с 4096 TPU.Чипы связаны между собой с помощью собственных переключателей оптических цепей (OCS), которые можно использовать не только для обучения собственного LaMDA. , Большие языковые модели, такие как MUM и PaLM, также могут предоставлять дешевые и высококачественные услуги стартапам в области ИИ.
Суперкомпьютер GoogleTPU v4 Pod
Есть еще Тесла, который сам делает суперкалькуляторы. После запуска чипа FSD, устанавливаемого на транспортном средстве, в августе 2021 года Tesla продемонстрировала внешнему миру суперкомпьютер Dojo ExaPOD, построенный из 3000 собственных чипов D1. Среди них чип D1 производится TSMC с использованием 7-нм технологии, а 3000 чипов D1 напрямую делают Dojo пятым по вычислительной мощности компьютером в мире.
**Однако сочетание этих двух факторов не может сравниться с влиянием чипа Athena собственной разработки Microsoft. **
Microsoft является одним из крупнейших клиентов Nvidia: ее собственная облачная служба Azure приобрела не менее десятков тысяч высокопроизводительных графических процессоров A100 и H100, SwiftKey и других продуктов, использующих ИИ.
После тщательного подсчета «налог Nvidia», который должна заплатить Microsoft, является астрономической цифрой, а чипы собственной разработки практически неизбежны. Точно так же, как Али подсчитал будущий спрос Taobao Tmall на облачные вычисления, базы данных и хранилища и обнаружил, что это астрономическая цифра, он решительно начал поддерживать Alibaba Cloud и запустил энергичную внутреннюю кампанию «де-IOE».
** Экономия затрат — это один аспект, а вертикальная интеграция для создания дифференциации — другой аспект. ** В эпоху мобильных телефонов процессор (AP), память и экран мобильных телефонов Samsung производятся и продаются самостоятельно, что вносит большой вклад в глобальную гегемонию Samsung в области Android. Разработчики ядра Google и Microsoft также проводят оптимизацию на уровне микросхем для своих собственных облачных сервисов, чтобы создать различия.
Поэтому, в отличие от Apple и Samsung, которые не продают чипы внешнему миру, хотя ИИ-чипы Google и Microsoft не будут продаваться внешнему миру, часть потенциальных клиентов Nvidia они переварят через «облачные сервисы вычислительной мощности ИИ». и Authropic являются примерами.Существует больше небольших компаний (особенно на прикладном уровне ИИ), выбирающих облачные сервисы.
**Концентрация мирового рынка облачных вычислений очень высока: на долю пяти ведущих производителей (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud и IBM) приходится более 60%, и все они производят собственные чипы ИИ. Среди них у Google самый быстрый прогресс, у IBM самые сильные резервы, у Microsoft самое большое влияние, у Amazon лучшая секретность, а у Али самые большие трудности. **
Отечественные крупные производители разрабатывают собственные чипы, и концовка Оппо Жеку бросит тень на каждого игрока, который выйдет на поле. Однако крупные зарубежные компании проводят самостоятельные исследования, и цепочки поставок талантов и технологий могут быть построены с помощью средств.Например, когда Tesla занималась FSD, она наняла бога Силиконовой долины Джима Келлера, а Google разработала TPU и напрямую пригласила Тьюринг, лауреат премии, изобретатель архитектуры RISC профессор Дэвид Паттерсон.
Помимо крупных производителей, отобрать торт у Nvidia пытаются и некоторые малые и средние компании, такие как Graphcore, оценка которой когда-то составляла 2,8 миллиарда долларов США, к этой категории относится и отечественная Cambrian. В следующей таблице перечислены наиболее известные начинающие компании по разработке микросхем ИИ в мире.
Трудность для стартапов по производству чипов ИИ заключается в том, что без постоянных инвестиций крупных компаний с сильными финансовыми ресурсами они не могут самостоятельно производить и продавать себя, как Google. шанс на победу в борьбе с Nvidia.Экономичность и экологичность последней могут практически сгладить все сомнения покупателей.
**Влияние стартапа на Nvidia ограничено, и скрытые опасения Хуан Ренсюня по-прежнему связаны с нечестными крупными клиентами. **
Конечно, крупные производители по-прежнему неотделимы от Nvidia. Например, несмотря на то, что TPU Google был обновлен до 4-го поколения, ему по-прежнему необходимо закупать графические процессоры в больших количествах, чтобы обеспечить вычислительную мощность в сочетании с TPU; выберите покупку 10 000 графических процессоров у NVIDIA.
Тем не менее, Huang Renxun уже испытал на себе пластическую дружбу крупных производителей Маска. В 2018 году Маск публично объявил, что будет разрабатывать собственный автомобильный чип (в то время использовался Nvidia DRIVE PX). пока. После этого Маск выступил с «разъяснением», но через год Тесла все равно ушел из Nvidia без оглядки. [5] 。
Крупные фабрики никогда не проявляли милосердия к экономии средств. Несмотря на то, что в эпоху ПК чипы Intel продаются в сегменте B, потребители имеют большой выбор автономности, и производители должны рекламировать «Intel Inside»; но в эпоху облачных вычислений гиганты могут блокировать всю базовую информацию об оборудовании и они также будут покупать в будущем.С вычислительной мощностью 100TFlops могут ли потребители сказать, какая часть исходит от TPU, а какая — от GPU?
Таким образом, Nvidia, наконец, должна столкнуться с вопросом: **GPU действительно не создан для ИИ, но будет ли GPU оптимальным решением для ИИ? **
За последние 17 лет Хуан Ренсюнь отделил GPU от одной игры и сцены обработки изображений, превратив его в инструмент вычислительной мощности общего назначения Новые сценарии продолжают «волшебным образом модифицировать» GPU, пытаясь найти баланс между «общностью "и "специфика".
За последние два десятилетия Nvidia представила бесчисленное количество новых технологий, изменивших отрасль: платформа CUDA, TensorCore, RT Core (трассировка лучей), NVLink, платформа cuLitho (вычислительная литография), смешанная точность, Omniverse, движок Transformer... технологии помогли Nvidia от компании-производителя чипов второго уровня до запястья Nanbo в рыночной стоимости всей отрасли, что не вдохновляет.
Но поколение должно иметь вычислительную архитектуру эпохи.Развитие искусственного интеллекта идет стремительно, а технологические прорывы измеряются часами.Если вы хотите, чтобы ИИ проник в человеческую жизнь так же сильно, как это произошло, когда ПК/смартфоны стали популярными, то вычислительная мощность Затраты могут снизиться на 99%, и GPU действительно могут быть не единственным решением.
**История говорит нам, что независимо от того, насколько процветающей может быть империя, ей, возможно, следует быть осторожным с этой незаметной трещиной. **
Использованная литература
[1] Классификация ImageNet с глубокими свёрточными нейронными сетями, Хинтон
[2] Microsoft готовит ИИ-чип из-за резкого роста затрат на машинное обучение
[3] Высокопроизводительные сверточные нейронные сети для обработки документов
[4] Cloud TPU v4 от Google обеспечивает машинное обучение масштаба экзафлопс с лучшей в отрасли эффективностью
[5] Амбиции Tesla в области искусственного интеллекта, Исследовательский институт Токавы
[6] Крупномасштабное глубокое обучение без учителя с использованием графических процессоров
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Трещина в империи Nvidia
Источник: Институт кремния.
Автор: Хэ Лухэн/Босс Дай
В 2012 году в кругу ИИ произошло два крупных события.В хронологическом порядке первым стал выпуск Google Brain, давней команды Google, в качестве своей «дебютной работы» — сети глубокого обучения «Google Cat». », который может распознавать кошек, с распознаванием 74,8%. Показатель точности на 0,8% выше, чем 74% алгоритма-победителя известного конкурса распознавания изображений ImageNet в прошлом году.
Но громкие моменты Google длились всего несколько месяцев. В декабре 2012 года был выпущен победитель последнего конкурса ImageNet.Мастер глубокого обучения Хинтон и его ученики принесли свёрточную нейронную сеть AlexNet, которая подняла показатель точности распознавания до 84%, тем самым начав революцию ИИ следующего поколения. десятилетие Google Cat был похоронен в пыли истории.
Не только сама модель ImageNet потрясла индустрию. Эта нейронная сеть, которая требует 14 миллионов изображений и в общей сложности 262 петафлопс операций с плавающей запятой, за неделю обучения использовала всего четыре NVIDIA Geforce GTX 580. Для справки, Google Cat использовал 10 миллионов изображений, 16 000 процессоров и 1000 компьютеров. [1] 。
Ходят слухи, что Google в этом году также тайно участвовала в конкурсе, и полученный ею шок напрямую отразился на следующей акции: Google потратила 44 миллиона долларов на приобретение команды Hinton и тут же разместила заказ у Nvidia на большое количество графических процессоров. для искусственного интеллекта.Обучение, а заодно и "заметание товара" тоже такие гиганты как майкрософт и фейсбук.
** Крупнейшим победителем стала Nvidia, и цена ее акций выросла максимум в 121 раз за следующие 10 лет. Рождается империя. **
Но над империей постепенно сгущались две темные тучи. Google, которая тогда закупала товары у Nvidia, три года спустя ошеломительно дебютировала с AlphaGo и победила чемпиона среди людей Ке Цзе в 2017 году. Проницательные люди обнаружили, что чипом, управляющим AlphaGo, является уже не графический процессор Nvidia, а чип TPU собственной разработки Google.
Спустя три года аналогичный сценарий повторился. Tesla, которую Хуан Ренсюнь когда-то считал эталонным клиентом, также попрощалась с графическим процессором Nvidia.Сначала она выпустила автомобильный чип FSD с NPU в качестве ядра, а затем отказалась от чипа D1, используемого для создания обучающих кластеров ИИ.Ли потерял два из самые важные клиенты в эпоху ИИ.
К 2022 году мировой ИТ-цикл войдет в нисходящую фазу. Крупные компании, занимающиеся облачными вычислениями, один за другим будут сокращать бюджеты на закупку графических процессоров для центров обработки данных. Продать A100/H100 в Китай невозможно.Что касается высококлассных видеокарт, запасы Nvidia выросли, а цена ее акций упала на 2/3 по сравнению с пиковым значением.
В конце 2022 года родился ChatGPT, а GPU, как топливо для масштабной «алхимии», снова были разграблены, Nvidia получила передышку, но последовала третья темная туча: 18 апреля 2023 года известные технологические СМИ Информация прервала новость: * Microsoft, инициатор этого раунда волны искусственного интеллекта, тайно разрабатывает собственный чип искусственного интеллекта* [2] 。
Этот чип под названием Athena производится TSMC по усовершенствованному 5-нм техпроцессу, а численность команды разработчиков Microsoft приближается к 300. Очевидно, что целью этого чипа является замена дорогого A100/H100, обеспечение вычислительной мощности для OpenAI и, в конечном итоге, перехват пирога у Nvidia через облачный сервис Microsoft Azure.
Microsoft в настоящее время является крупнейшим покупателем Nvidia H100, и даже ходили слухи, что она «закроет» годовые производственные мощности H100. Сигнал о распаде от Microsoft, несомненно, является громом среди ясного неба.Вы должны знать, что даже когда Intel была в самом темном состоянии, ни один из ее клиентов «не осмеливается» производить свои собственные процессорные чипы (за исключением Apple, которая не продает их за границу). .
Хотя Nvidia в настоящее время монополизирует 90% рынка вычислительной мощности ИИ с помощью GPU+NVlink+CUDA, в **империи появилась первая трещина. **
01, графический процессор, созданный не для ИИ
С самого начала графические процессоры не предназначались для ИИ.
В октябре 1999 года Nvidia выпустила GeForce 256, чип для обработки графики, основанный на 220-нм техпроцессе TSMC и содержащий 23 миллиона транзисторов. Nvidia извлекла инициалы «GPU» из графического процессора и сегодня назвала GeForce 256 ** «первым в мире GPU».
В это время искусственный интеллект уже много лет молчит, особенно в области глубоких нейронных сетей. Будущие лауреаты премии Тьюринга, такие как Джеффри Хинтон и Янн ЛеКун, все еще сидят на академической скамье, и они никогда не думают о своей карьере. будет полностью заменен графическим процессором, изначально разработанным для геймеров.
Для кого создан GPU? изображение. Точнее, он был создан, чтобы освободить центральный процессор от рутинной работы по отображению графики. Основной принцип отображения изображения состоит в том, чтобы разделить изображение каждого кадра на отдельные пиксели, а затем выполнить несколько процессов рендеринга, таких как обработка вершин, примитивная обработка, растеризация, обработка фрагментов, обработка пикселей и т. д., и, наконец, вывести их на экран.
Почему вы говорите, что это тяжелая работа? Решите простую арифметическую задачу:
Предполагая, что на экране 300 000 пикселей, рассчитанных при частоте кадров 60 кадров в секунду, необходимо выполнить 18 миллионов рендерингов в секунду, каждый раз включая пять вышеуказанных шагов, соответствующих пяти инструкциям, то есть ЦП должен выполнить 90 миллионов операций в секунду, чтобы реализовать односекундное представление экрана.Для справки, самый производительный процессор Intel в то время имел только 60 миллионов вычислений в секунду.
Это не потому, что ЦП слаб, а потому, что он хорош в планировании потоков, поэтому больше места отводится блоку управления и блоку хранения, а вычислительный блок, используемый для вычислений, занимает только 20% места. Напротив, графический процессор занимает более 80% пространства в вычислительном блоке, который обеспечивает возможности сверхпараллельных вычислений и больше подходит для фиксированной, повторяющейся и скучной работы по отображению изображения.
Лишь несколько лет спустя некоторые исследователи искусственного интеллекта поняли, что графические процессоры с такими характеристиками также подходят для обучения глубокому обучению. Многие классические архитектуры глубоких нейронных сетей были предложены еще во второй половине 20 века, но из-за отсутствия вычислительной техники для их обучения многие исследования могут вестись только «на бумаге», и разработка давно застопорилась. время.
Выстрел в октябре 1999 года привел GPU к искусственному интеллекту. Учебный процесс глубокого обучения заключается в выполнении иерархических операций над каждым входным значением в соответствии с функциями и параметрами каждого слоя нейронной сети и, наконец, в получении выходного значения, что требует большого количества матричных операций, таких как рендеринг графики — это случается, что GPU лучше всего справляется с этим.
Однако изображение показывает, что, хотя объем обработки данных огромен, большинство шагов фиксированы.Как только глубокая нейронная сеть будет применена к области принятия решений, она будет включать сложные ситуации, такие как структуры ветвей и параметры каждый слой должен быть обучен на основе большого количества положительных и отрицательных отзывов. Продолжайте пересматривать. Эти различия таят в себе скрытые опасности для адаптации графических процессоров к ИИ в будущем.
Нынешний генеральный менеджер Amazon AI/ML Кумар Челлапилла — первый ученый, который съел крабов на GPU. В 2006 году он впервые использовал графическую карту Nvidia GeForce 7800 для реализации сверточной нейронной сети (CNN) и обнаружил, что она работает в 4 раза быстрее, чем при использовании ЦП. Это самая ранняя известная попытка использовать GPU для глубокого обучения. [3] 。
Работа Кумара не привлекла широкого внимания, в основном из-за высокой сложности программирования на базе GPU. Но как раз в это время в 2007 году Nvidia запустила платформу CUDA, которая значительно упростила разработчикам использование GPU для обучения глубоких нейронных сетей, что вселило в сторонников глубокого обучения больше надежды.
Затем, в 2009 году, Ву Энда из Стэнфорда и другие опубликовали прорывную статью. [6] , GPU сокращает время обучения ИИ с недель до часов благодаря более чем 70-кратной вычислительной мощности процессора. Эта статья указывает путь к аппаратной реализации искусственного интеллекта. Графический процессор значительно ускорил процесс перехода ИИ из бумаги в реальность.
Стоит отметить, что Ву Энда присоединился к Google Brain в 2011 году и является одним из руководителей упомянутого в начале проекта Google Cat. Причина, по которой Google Brain в конце концов не смогла использовать GPU, неизвестна посторонним, но до и после того, как Ву Энда покинул Google, чтобы присоединиться к Baidu, ходили слухи, что это произошло из-за того, что отношение Google к GPU было неясным.
**После исследований бесчисленных людей эстафета наконец была передана мастеру глубокого обучения Хинтону, и время уже указывало на 2012 год. **
В 2012 году Хинтон и два студента, Алекс Крижевский и Илья Суцкеверз, разработали глубокую сверточную нейронную сеть AlexNet и планировали участвовать в конкурсе ImageNet в этом году. Но проблема в том, что обучение AlexNet на CPU может занять несколько месяцев, поэтому они обратили внимание на GPU.
Этот графический процессор, который имеет решающее значение в истории развития глубокого обучения, является знаменитой «графической картой с ядерной бомбой» GTX 580. Являясь флагманским продуктом новейшей архитектуры Fermi от Nvidia, GTX 580 начинена 512 ядрами CUDA (108 в предыдущем поколении).В то время как вычислительная мощность стремительно растет, преувеличенное энергопотребление и проблемы с выделением тепла также сделали Nvidia прозванной «фабрикой ядерных бомб». ".
Мышьяк А, мед Б. По сравнению с «плавностью» при обучении нейросетей на GPU, о проблеме тепловыделения и говорить нечего. Команда Hinton успешно завершила программирование на платформе CUDA от Nvidia.При поддержке двух графических карт GTX 580 обучение 14 миллионов изображений заняло всего одну неделю, и AlexNet успешно выиграл чемпионат.
** Благодаря влиянию конкурса ImageNet и самого Хинтона все исследователи искусственного интеллекта мгновенно осознали важность графического процессора. **
Два года спустя Google использовала модель GoogLeNet для участия в ImageNet и выиграла чемпионат с показателем точности 93%, используя графические процессоры NVIDIA.В этом году количество графических процессоров, используемых всеми участвующими командами, взлетело до 110. Вне соревнований GPU стал «обязательным продуктом потребления» для глубокого обучения, благодаря чему Хуан Ренсюнь получает постоянный поток заказов.
Это позволило Nvidia избавиться от тени фиаско на рынке мобильной связи.После выхода iPhone в 2007 году пирог чипов для смартфонов стремительно расширялся.Nvidia также пыталась получить кусок пирога от Samsung, Qualcomm и MediaTek.Проблема отвода тепла не удалась. В конце концов, именно область искусственного интеллекта, спасенная GPU, дала Nvidia вторую кривую роста.
Но ведь GPU не рожден для обучения нейросетей, чем быстрее будет развиваться искусственный интеллект, тем больше будут обнажаться эти проблемы.
Например, хотя GPU существенно отличается от CPU, оба они в основном следуют структуре фон Неймана, а хранение и работа разделены. Узкое место в эффективности, вызванное этим разделением, в конце концов, шаги обработки изображения относительно фиксированы и могут быть решены за счет большего количества параллельных операций, но это очень фатально в нейронной сети с множеством ветвящихся структур.
Каждый раз, когда нейронная сеть добавляет слой или ветку, ей необходимо увеличивать доступ к памяти для хранения данных для возврата, а затраты времени на это неизбежны. Особенно в эпоху больших моделей, чем больше модель, тем больше операций доступа к памяти необходимо выполнить — энергия, потребляемая при доступе к памяти, во много раз выше, чем при вычислениях.
Простая аналогия: GPU — это мускулистый человек (со многими вычислительными блоками), но для каждой полученной инструкции он должен вернуться и посмотреть инструкцию по эксплуатации (память) Наконец, по мере увеличения размера и сложности модели , мужчина Время на реальную работу очень ограничено, а вместо этого я так устал листать мануалы, что у меня пена изо рта.
Проблемы с памятью — лишь один из многих «неудобств» графических процессоров в приложениях с глубокими нейронными сетями. Nvidia знала об этих проблемах с самого начала и быстро начала «волшебно модифицировать» GPU, чтобы сделать его более подходящим для сценариев приложений искусственного интеллекта; и игроки с ИИ, которые остро чувствуют огонь, также прокрадываются, пытаясь использовать дефекты графического процессора, чтобы взломать угол империи Хуан Ренсюня.
**Начинается наступательный и оборонительный бой. **
02, темная битва между Google и Nvidia
Столкнувшись с огромным спросом на вычислительную мощность ИИ и врожденными дефектами графического процессора, Хуан Ренсюнь предложил два набора решений, которые должны идти рука об руку.
**Первый набор состоит в том, чтобы продолжать яростно наращивать вычислительную мощность по пути «старая фея вычислительной мощности обладает безграничной магической силой». ** В эпоху, когда спрос на вычислительную мощность ИИ удваивается каждые 3,5 месяца, вычислительная мощность — это пряник, висящий перед глазами компаний, занимающихся искусственным интеллектом, заставляющий их ругать Хуан Ренсюня за его превосходные навыки владения мечом и хватать его, как собака. Все возможности Nvidia.
**Второй набор предназначен для постепенного устранения несоответствия между сценариями GPU и искусственного интеллекта за счет «улучшенных инноваций». **Эти проблемы включают, помимо прочего, энергопотребление, стены памяти, узкие места в пропускной способности, низкоточные вычисления, высокоскоростные соединения, оптимизацию конкретных моделей... С 2012 года Nvidia внезапно ускорила скорость обновления архитектуры.
После того, как Nvidia выпустила CUDA, она использовала унифицированную архитектуру для поддержки двух основных сценариев: графики и вычислений. Архитектура первого поколения дебютировала в 2007 году и получила название Тесла не потому, что Хуан Рэнсюнь хотел показать свою благосклонность к Маску, а чтобы отдать дань уважения физику Николе Тесле (самым ранним поколением была архитектура Кюри).
С тех пор каждое поколение архитектуры GPU NVIDIA было названо в честь известных ученых, как показано на рисунке ниже. В каждой итерации архитектуры Nvidia продолжает наращивать вычислительную мощность, при этом совершенствуясь без «разрыва мышц и костей».
Чтобы адаптироваться к сцене ИИ, «волшебно модифицированный» графический процессор Nvidia в какой-то степени все больше и больше становится похожим на ЦП — точно так же, как превосходная способность планирования ЦП достигается за счет вычислительной мощности, Nvidia приходится ограничивать себя. стек вычислительных ядер. Однако как бы вы ни меняли GPU с грузом универсальности, в сценарии ИИ будет сложно сопоставить выделенный чип.
** Первым, кто атаковал Nvidia, был Google, который первым начал массово закупать графические процессоры для вычислений ИИ. **
После демонстрации своих мускулов с помощью GoogLeNet в 2014 году Google больше публично не участвовала в конкурсе по машинному распознаванию и вступила в сговор с целью разработки чипов для искусственного интеллекта. В 2016 году Google вышла в лидеры с AlphaGo.После победы в Li Shishi она сразу же запустила собственный чип TPU для искусственного интеллекта, который застал Nvidia врасплох с новой архитектурой, «рожденной для искусственного интеллекта».
TPU — это аббревиатура от Tensor Processing Unit, а китайское название — «tensor processing unit». Если «волшебная реформа» графического процессора Nvidia состоит в том, чтобы снести восточную стену, чтобы компенсировать западную стену, то TPU должен фундаментально снизить потребность в памяти и соединении и в наибольшей степени передать пространство чипа вычислениям. Конкретно два Великих средства:
**Первая — количественная технология. **Современные компьютерные вычисления обычно используют высокоточные данные, которые занимают много памяти, но на самом деле большинству вычислений нейронных сетей не требуется точность для достижения 32-битных или 16-битных вычислений с плавающей запятой.Суть квантования Технология в основном состоит в том, чтобы комбинировать 32-битные/16-битные числа, аппроксимированные до 8-битных целых чисел, сохраняя соответствующую точность и уменьшая требования к памяти.
Второй — систолический массив, представляющий собой массив умножения матриц, который является одним из наиболее важных различий между TPU и GPU. Проще говоря, операции нейронной сети требуют большого количества матричных операций.ГП может только разобрать матричные вычисления на несколько векторных вычислений шаг за шагом.Каждый раз, когда группа завершена, ему необходимо получить доступ к памяти и сохранить результаты этот слой, пока не будут завершены все векторные вычисления, а затем объедините результаты каждого слоя, чтобы получить выходное значение.
В ТПУ тысячи вычислительных блоков напрямую соединены для формирования массива умножения матриц.Ядро вычислений может выполнять матричные вычисления напрямую.За исключением загрузки данных и функций в начале, нет необходимости обращаться к блокам хранения, которые значительно уменьшает доступ.Частота значительно ускоряет скорость вычислений TPU, а потребление энергии и занимаемое физическое пространство также значительно снижаются.
TPU Google очень быстр, и от проектирования, проверки, массового производства до окончательного развертывания в собственном центре обработки данных потребовалось всего 15 месяцев. После тестирования производительность и энергопотребление TPU в CNN, LSTM, MLP и других сценариях AI значительно превзошли GPU Nvidia за тот же период. **Все давление сразу было брошено на Nvidia. **
Быть ударом в спину крупного заказчика неудобно, но Nvidia не выдержит и проиграет, и началось перетягивание каната.
Через пять месяцев после того, как Google запустила TPU, Nvidia также представила архитектуру Pascal 16-нм техпроцесса. С одной стороны, новая архитектура представляет известную технологию высокоскоростного двустороннего соединения NVLink, которая значительно улучшает пропускную способность соединения, с другой стороны, она имитирует технологию квантования TPU и повышает вычислительную эффективность нейронной сети. за счет снижения точности данных.
В 2017 году Nvidia запустила Volta, первую архитектуру, разработанную специально для глубокого обучения, которая впервые представила TensorCore, который специально используется для матричных операций, хотя массив умножения 4 × 4 такой же, как массив импульсов TPU 256 × 256. Соотношение немного убогое, но это тоже компромисс, сделанный на основе сохранения гибкости и универсальности.
Руководители NVIDIA заявили клиентам: ** «Volta — это не обновление Pascal, а совершенно новая архитектура».**
Google тоже идет в ногу со временем: после 2016 года за пять лет TPU обновили 3 поколения: TPUv2 – в 2017 году, TPUv3 – в 2018 году и TPUv4 – в 2021 году. [4] : **TPU v4 в 1,2–1,7 раза быстрее, чем Nvidia A100, при снижении энергопотребления в 1,3–1,9 раза. **
Google не продает чипы TPU внешнему миру и в то же время продолжает закупать графические процессоры Nvidia в больших количествах, что заставляет конкуренцию чипов AI между ними оставаться в «холодной войне», а не в «открытой конкуренции». Но ведь Google развертывает TPU в собственной системе облачных сервисов, чтобы предоставлять услуги вычислительной мощности ИИ внешнему миру, что, несомненно, сокращает потенциальный рынок Nvidia.
Пока эти двое «сражаются в темноте», прогресс в области искусственного интеллекта также стремительно прогрессирует. В 2017 году Google предложила революционную модель-трансформер, а затем OpenAI разработала GPT-1 на основе Transformer.Началась гонка вооружений больших моделей, и спрос на вычислительную мощность ИИ привел к второму ускорению с момента появления AlexNet в 2012 году.
Осознав новую тенденцию, Nvidia запустила архитектуру Hopper в 2022 году, впервые внедрив механизм ускорения Transformer на аппаратном уровне, заявив, что он может увеличить время обучения большой языковой модели на основе Transformer в 9 раз. Основываясь на архитектуре Hopper, Nvidia выпустила «самый мощный графический процессор на поверхности» — H100.
H100 — это настоящий «монстр стежков» от Nvidia. С одной стороны, он представляет различные технологии оптимизации ИИ, такие как квантование, вычисление матриц (Tensor Core 4.0) и механизм ускорения Transformer, а с другой стороны, он полон традиционных сильных сторон Nvidia, таких как 7296 CUDA Core, 80 ГБ памяти HBM2 и технология подключения NVLink 4.0 со скоростью до 900 ГБ/с.
Взяв H100 в руки, Nvidia временно вздохнула с облегчением: на рынке нет серийного чипа лучше, чем H100.
Секретные качели Google и Nvidia также являются взаимным достижением: Nvidia заимствовала множество инновационных технологий от Google, а передовые исследования Google в области искусственного интеллекта также полностью выиграли от инноваций графического процессора Nvidia. сводится к уровню, который может использоваться большой языковой моделью «на цыпочках». Те, кто находится в центре внимания, такие как OpenAI, также стоят на плечах этих двоих.
Но чувства принадлежат чувствам, а бизнес принадлежит бизнесу. Наступательная и оборонительная битва вокруг графических процессоров сделала отрасль более уверенной в одном: **графический процессор не является оптимальным решением для ИИ, а специализированные ASIC могут разрушить монополию Nvidia. ** Трещины были открыты, и Google не будет единственным, кто следует вкусу.
**Особенно вычислительная мощность стала самым определенным спросом в эпоху AGI, и все хотят сидеть за одним столом с NVIDIA во время еды. **
03, трещина, которая расширяется
Помимо OpenAI, на этом этапе бума ИИ есть еще две готовые компании: компания Midjourney, занимающаяся рисованием ИИ, чья способность контролировать различные стили рисования пугает бесчисленное количество художников, использующих углерод; является Authropic, основатель которого из OpenAI, диалоговый робот Клод играл туда-сюда с ChatGPT.
** Но ни одна из этих двух компаний не приобрела графические процессоры Nvidia для создания суперкомпьютеров, а воспользовалась вычислительными услугами Google. **
Чтобы справиться со взрывным ростом вычислительной мощности ИИ, Google построила суперкомпьютер (TPU v4 Pod) с 4096 TPU.Чипы связаны между собой с помощью собственных переключателей оптических цепей (OCS), которые можно использовать не только для обучения собственного LaMDA. , Большие языковые модели, такие как MUM и PaLM, также могут предоставлять дешевые и высококачественные услуги стартапам в области ИИ.
Есть еще Тесла, который сам делает суперкалькуляторы. После запуска чипа FSD, устанавливаемого на транспортном средстве, в августе 2021 года Tesla продемонстрировала внешнему миру суперкомпьютер Dojo ExaPOD, построенный из 3000 собственных чипов D1. Среди них чип D1 производится TSMC с использованием 7-нм технологии, а 3000 чипов D1 напрямую делают Dojo пятым по вычислительной мощности компьютером в мире.
**Однако сочетание этих двух факторов не может сравниться с влиянием чипа Athena собственной разработки Microsoft. **
Microsoft является одним из крупнейших клиентов Nvidia: ее собственная облачная служба Azure приобрела не менее десятков тысяч высокопроизводительных графических процессоров A100 и H100, SwiftKey и других продуктов, использующих ИИ.
После тщательного подсчета «налог Nvidia», который должна заплатить Microsoft, является астрономической цифрой, а чипы собственной разработки практически неизбежны. Точно так же, как Али подсчитал будущий спрос Taobao Tmall на облачные вычисления, базы данных и хранилища и обнаружил, что это астрономическая цифра, он решительно начал поддерживать Alibaba Cloud и запустил энергичную внутреннюю кампанию «де-IOE».
** Экономия затрат — это один аспект, а вертикальная интеграция для создания дифференциации — другой аспект. ** В эпоху мобильных телефонов процессор (AP), память и экран мобильных телефонов Samsung производятся и продаются самостоятельно, что вносит большой вклад в глобальную гегемонию Samsung в области Android. Разработчики ядра Google и Microsoft также проводят оптимизацию на уровне микросхем для своих собственных облачных сервисов, чтобы создать различия.
Поэтому, в отличие от Apple и Samsung, которые не продают чипы внешнему миру, хотя ИИ-чипы Google и Microsoft не будут продаваться внешнему миру, часть потенциальных клиентов Nvidia они переварят через «облачные сервисы вычислительной мощности ИИ». и Authropic являются примерами.Существует больше небольших компаний (особенно на прикладном уровне ИИ), выбирающих облачные сервисы.
**Концентрация мирового рынка облачных вычислений очень высока: на долю пяти ведущих производителей (Amazon AWS, Microsoft Azure, Google Cloud, Alibaba Cloud и IBM) приходится более 60%, и все они производят собственные чипы ИИ. Среди них у Google самый быстрый прогресс, у IBM самые сильные резервы, у Microsoft самое большое влияние, у Amazon лучшая секретность, а у Али самые большие трудности. **
Отечественные крупные производители разрабатывают собственные чипы, и концовка Оппо Жеку бросит тень на каждого игрока, который выйдет на поле. Однако крупные зарубежные компании проводят самостоятельные исследования, и цепочки поставок талантов и технологий могут быть построены с помощью средств.Например, когда Tesla занималась FSD, она наняла бога Силиконовой долины Джима Келлера, а Google разработала TPU и напрямую пригласила Тьюринг, лауреат премии, изобретатель архитектуры RISC профессор Дэвид Паттерсон.
Трудность для стартапов по производству чипов ИИ заключается в том, что без постоянных инвестиций крупных компаний с сильными финансовыми ресурсами они не могут самостоятельно производить и продавать себя, как Google. шанс на победу в борьбе с Nvidia.Экономичность и экологичность последней могут практически сгладить все сомнения покупателей.
**Влияние стартапа на Nvidia ограничено, и скрытые опасения Хуан Ренсюня по-прежнему связаны с нечестными крупными клиентами. **
Конечно, крупные производители по-прежнему неотделимы от Nvidia. Например, несмотря на то, что TPU Google был обновлен до 4-го поколения, ему по-прежнему необходимо закупать графические процессоры в больших количествах, чтобы обеспечить вычислительную мощность в сочетании с TPU; выберите покупку 10 000 графических процессоров у NVIDIA.
Тем не менее, Huang Renxun уже испытал на себе пластическую дружбу крупных производителей Маска. В 2018 году Маск публично объявил, что будет разрабатывать собственный автомобильный чип (в то время использовался Nvidia DRIVE PX). пока. После этого Маск выступил с «разъяснением», но через год Тесла все равно ушел из Nvidia без оглядки. [5] 。
Крупные фабрики никогда не проявляли милосердия к экономии средств. Несмотря на то, что в эпоху ПК чипы Intel продаются в сегменте B, потребители имеют большой выбор автономности, и производители должны рекламировать «Intel Inside»; но в эпоху облачных вычислений гиганты могут блокировать всю базовую информацию об оборудовании и они также будут покупать в будущем.С вычислительной мощностью 100TFlops могут ли потребители сказать, какая часть исходит от TPU, а какая — от GPU?
Таким образом, Nvidia, наконец, должна столкнуться с вопросом: **GPU действительно не создан для ИИ, но будет ли GPU оптимальным решением для ИИ? **
За последние 17 лет Хуан Ренсюнь отделил GPU от одной игры и сцены обработки изображений, превратив его в инструмент вычислительной мощности общего назначения Новые сценарии продолжают «волшебным образом модифицировать» GPU, пытаясь найти баланс между «общностью "и "специфика".
За последние два десятилетия Nvidia представила бесчисленное количество новых технологий, изменивших отрасль: платформа CUDA, TensorCore, RT Core (трассировка лучей), NVLink, платформа cuLitho (вычислительная литография), смешанная точность, Omniverse, движок Transformer... технологии помогли Nvidia от компании-производителя чипов второго уровня до запястья Nanbo в рыночной стоимости всей отрасли, что не вдохновляет.
Но поколение должно иметь вычислительную архитектуру эпохи.Развитие искусственного интеллекта идет стремительно, а технологические прорывы измеряются часами.Если вы хотите, чтобы ИИ проник в человеческую жизнь так же сильно, как это произошло, когда ПК/смартфоны стали популярными, то вычислительная мощность Затраты могут снизиться на 99%, и GPU действительно могут быть не единственным решением.
**История говорит нам, что независимо от того, насколько процветающей может быть империя, ей, возможно, следует быть осторожным с этой незаметной трещиной. **
Использованная литература
[1] Классификация ImageNet с глубокими свёрточными нейронными сетями, Хинтон
[2] Microsoft готовит ИИ-чип из-за резкого роста затрат на машинное обучение
[3] Высокопроизводительные сверточные нейронные сети для обработки документов
[4] Cloud TPU v4 от Google обеспечивает машинное обучение масштаба экзафлопс с лучшей в отрасли эффективностью
[5] Амбиции Tesla в области искусственного интеллекта, Исследовательский институт Токавы
[6] Крупномасштабное глубокое обучение без учителя с использованием графических процессоров