За кулисами битвы моделей ИИ: Падение технологических барьеров, коммерческие перспективы все еще неясны

Битва ста моделей в области ИИ в самом разгаре, но коммерческие перспективы все еще неясны

В прошлом месяце в мире ИИ разгорелась "борьба животных". С одной стороны, модель Llama от Meta, которая благодаря своей открытой природе пользуется большой популярностью среди разработчиков. После изучения Llama японская компания NEC быстро разработала японскую версию ChatGPT. С другой стороны, есть большая модель под названием Falcon, которая после своего появления в мае обошла Llama и заняла первое место в рейтинге открытых языковых моделей.

Интересно, что Falcon не разработан технологической компанией, а был разработан Исследовательским институтом технологических инноваций Абу-Даби в Объединенных Арабских Эмиратах. Официальные лица ОАЭ заявили, что они участвуют в этой области, чтобы "свергнуть основных игроков". На следующий день после выпуска версии Falcon 180B министр ИИ ОАЭ был включен в список "100 самых влиятельных людей в области ИИ" по версии журнала Time.

Сегодня область ИИ вошла в стадию, когда множество компаний и стран борются за лидерство, и многие из них создают свои собственные большие модели. Только в регионе Персидского залива Саудовская Аравия недавно приобрела более 3000 чипов H100 для обучения больших языковых моделей в своих университетах.

Один инвестор однажды пожаловался в социальных сетях: "Когда-то я не воспринимал инновации бизнес-моделей в Интернете всерьез, думал, что там нет барьеров. Не ожидал, что стартапы в области жестких технологий и больших моделей все равно приведут к битве множества моделей..."

Как так называемые высокие барьеры в области жестких технологий стали доступными для участия каждому?

Transformer меняет правила игры

Стартапы из разных стран, технологические гиганты и нефтяные магнаты могут преследовать мечты о больших моделях благодаря статье Google 2017 года «Внимание — это всё, что вам нужно». Эта статья представила алгоритм Transformer, который стал катализатором текущей волны искусственного интеллекта. Все современные большие модели, независимо от их национальности, включая громкие GPT-серии, основаны на Transformer.

Ранее "обучение машин чтению" считалось общепризнанной академической проблемой. В отличие от распознавания изображений, при чтении человек обращает внимание не только на текущие слова и фразы, но и понимает их в контексте. Ранние нейронные сети принимали независимые входные данные, что затрудняло понимание длинных текстов и даже целых статей, поэтому возникали такие проблемы, как перевод "开水间" как "open water room".

В 2014 году, после работы в Google, компьютерный ученый Илья Сутскевер(Ilya Sutskever) впервые достиг прорыва. Он использовал рекуррентные нейронные сети(RNN) для обработки естественного языка, что значительно улучшило производительность Google Translate по сравнению с конкурентами. RNN предложила "рекуррентный дизайн", позволяя каждому нейрону получать не только текущий вход, но и вход с предыдущего момента времени, что дало возможность "учитывать контекст".

Появление RNN разожгло исследовательский интерес в научной среде, автор статьи о Transformer Ноам Шазир ( также был увлечён этим. Однако разработчики вскоре обнаружили серьёзные недостатки RNN: этот алгоритм использует последовательные вычисления, хотя и может решать проблемы контекста, но имеет низкую эффективность работы и трудно справляется с большим количеством параметров.

Сложный дизайн RNN раздражал Шазела. Начиная с 2015 года, он и семь единомышленников начали разрабатывать замену RNN, результатом чего стал Transformer. В отличие от RNN, у Transformer есть два основных новшества: во-первых, использование позиционного кодирования вместо циклического дизайна, что позволяет осуществлять параллельные вычисления, значительно увеличивая эффективность обучения и вводя AI в эру больших моделей; во-вторых, дальнейшее улучшение способности понимания контекста.

Трансформер в одночасье решил множество недостатков и постепенно стал основным решением в NLP) (обработке естественного языка)(. Даже Илья оставил свою собственную разработку RNN и присоединился к лагерю Трансформеров. Можно сказать, что Трансформер является прародителем всех современных больших моделей, он превратил большие модели из теоретического исследования в чисто инженерную задачу.

В 2019 году OpenAI разработала GPT-2 на основе Transformer, что произвело фурор в научной среде. Google вскоре представила более мощную AI-модель Meena. В отличие от GPT-2, Meena не привнесла алгоритмических новшеств, а лишь увеличила количество обучающих параметров в 8,5 раз и вычислительную мощность в 14 раз. Автор Transformer, Ашиш Ша, был сильно поражён таким "грубыми наращиванием", написав меморандум под названием "Meena поглощает мир".

После появления Transformer скорость инноваций в базовых алгоритмах в академической среде значительно замедлилась. Инженерные факторы, такие как обработка данных, масштаб вычислений и архитектура моделей, становятся все более важными в соревнованиях по ИИ. Любая технологическая компания с определенными техническими возможностями может разработать крупную модель.

Компьютерный ученый Эндрю Нг во время своей лекции в Стэнфорде сказал: "Искусственный интеллект — это набор инструментов, включая обучение с учителем, обучение без учителя, обучение с подкреплением и современные генеративные искусственные интеллекты. Все это универсальные технологии, подобные электроэнергии и интернету."

OpenAI, безусловно, остается маяком в области LLM, но аналитическая компания в сфере полупроводников Semi Analysis считает, что конкурентоспособность GPT-4 заключается в инженерных решениях — если исходный код будет открыт, любой конкурент сможет быстро скопировать его. Этот аналитик предполагает, что, возможно, не пройдет много времени, прежде чем другие крупные технологические компании смогут разработать крупные модели, сопоставимые по производительности с GPT-4.

Где находится крепостной ров?

На данный момент "Война больших моделей" уже не является метафорой, а стала реальностью. Согласно отчетам, по состоянию на июль этого года в Китае насчитывается 130 больших моделей, что превышает 114 в США, и различные мифы и легенды едва ли достаточны для именования отечественных технологических компаний.

Помимо США и Китая, другие богатые страны также в основном реализовали "одна страна - одна модель": Япония, Объединенные Арабские Эмираты, а также Bhashini, возглавляемый правительством Индии, и HyperClova X, разработанный южнокорейской интернет-компанией Naver. Эта картина напоминает эпоху интернет-пузыря, когда все стороны стали тратить деньги, чтобы войти на рынок.

Как уже упоминалось ранее, трансформеры сделали большие модели чисто инженерной задачей: если есть финансирование и оборудование, остальное - это тонкая настройка параметров. Однако снижение входного барьера не означает, что каждый может стать гигантом эпохи ИИ.

Упомянутое в начале "Соревнование животных" является типичным примером: хотя Falcon обошел Llama в рейтинге, трудно сказать, какой ущерб это причиняет Meta. Как известно, компании открывают свои научные достижения не только для того, чтобы поделиться технологическими преимуществами, но и чтобы привлечь социальный интеллект. С увеличением использования и улучшения Llama в различных областях, Meta может применить эти достижения в своих продуктах.

Для открытых больших моделей активное сообщество разработчиков является основной конкурентоспособностью. Meta еще в 2015 году, когда создала лабораторию ИИ, утвердила путь открытого исходного кода; Цукерберг, начавший с социальных медиа, лучше понимает важность "поддержания общественных отношений".

Например, в октябре Meta провела мероприятие "Стимулирование создателей AI": разработчики, использующие Llama 2 для решения социальных проблем, таких как образование и экология, имеют возможность получить грант в размере 500 000 долларов. Сегодня серия Llama от Meta стала ориентиром для открытых LLM.

На начало октября, среди первых 10 в открытом рейтинге LLM известной платформы, 8 разработаны на основе Llama 2 и используют его открытый лицензии. Только на этой платформе более 1500 LLM используют открытый лицензии Llama 2.

Улучшение производительности, безусловно, возможно, но в настоящее время большинство LLM все еще значительно отстают от GPT-4. Например, недавно GPT-4 занял первое место в тесте AgentBench с результатом 4.41. AgentBench был совместно разработан Университетом Цинхуа и несколькими известными университетами США для оценки способности LLM к рассуждениям и принятию решений в многомерной открытой генеративной среде.

Результаты теста показывают, что второй место занял Claude с 2,77 балла, разрыв все еще значителен. Что касается тех громких открытых LLM, большинство из них набирает около 1 балла, что меньше четверти от GPT-4. Следует отметить, что GPT-4 был выпущен в марте этого года, и это все еще результаты после более чем полугода догоняющей работы со стороны мировых коллег.

Причиной этой разницы является высококвалифицированная команда ученых OpenAI и опыт, накопленный за долгие годы исследований LLM, что позволяет им оставаться на передовых позициях. Иными словами, ключевые возможности больших моделей заключаются не в параметрах, а в экосистеме ) открытого кода ( или чисто в способности к выводу ) закрытого кода (.

С учетом того, что открытое сообщество становится все более активным, производительность различных LLM может стать схожей, поскольку все используют аналогичные архитектуры моделей и наборы данных. Еще одна более очевидная проблема заключается в том, что, кроме Midjourney, похоже, ни одна большая модель не смогла добиться прибыли.

Поиск ценностной опоры

В августе этого года статья под названием "OpenAI может обанкротиться в конце 2024 года" привлекла внимание. Основная идея статьи может быть кратко изложена в одном предложении: OpenAI тратит деньги слишком быстро.

В статье упоминается, что с момента разработки ChatGPT убытки OpenAI быстро увеличились, и в 2022 году они составили около 540 миллионов долларов, что заставило компанию полагаться на инвестиции Microsoft. Хотя заголовок этой статьи звучит громко, он также отражает текущее состояние многих поставщиков крупных моделей: серьезный дисбаланс между затратами и доходами.

Слишком высокие затраты привели к тому, что на данный момент только NVIDIA действительно зарабатывает большие деньги на AI, возможно, еще и Broadcom. По данным консалтинговой компании Omdia, NVIDIA продала более 300 тысяч чипов H100 во втором квартале этого года. Это эффективный AI-чип, который стремятся приобрести мировые технологические компании и исследовательские учреждения. Если сложить эти 300 тысяч H100 вместе, их вес будет равен весу 4,5 самолета Boeing 747.

Выручка NVIDIA стремительно возросла, увеличившись на 854% по сравнению с прошлым годом, что привело в недоумение Уолл-стрит. Стоит отметить, что цена H100 на вторичном рынке уже поднялась до 40-50 тысяч долларов, тогда как его материальные затраты составляют лишь около 3000 долларов.

Высокие затраты на вычислительную мощность стали препятствием для развития отрасли в определенной степени. Sequoia Capital когда-то оценивала: глобальные технологические компании ежегодно ожидают потратить 200 миллиардов долларов на строительство инфраструктуры для крупных моделей; в то же время, крупные модели могут приносить не более 75 миллиардов долларов дохода в год, что создает как минимум 125 миллиардов долларов дефицита.

Кроме того, за исключением немногих, таких как Midjourney, большинство программных компаний после вложения огромных средств все еще не нашли прибыльную модель. Даже такие лидеры отрасли, как Microsoft и Adobe, сталкиваются с вызовами.

Инструмент генерации кода AI GitHub Copilot, разработанный в сотрудничестве Microsoft и OpenAI, несмотря на ежемесячную плату в 10 долларов, приводит к убыткам в 20 долларов в месяц из-за затрат на инфраструктуру, а у пользователей с высокой нагрузкой убытки могут достигать 80 долларов в месяц. Исходя из этого, можно предположить, что Microsoft 365 Copilot, цена которого составляет 30 долларов, может приносить еще большие убытки.

Аналогично, только что выпустивший инструмент Firefly AI Adobe быстро запустил сопутствующую систему баллов, чтобы предотвратить чрезмерное использование пользователями, что может привести к убыткам компании. Как только пользователь превышает ежемесячно выделенные баллы, Adobe снижает скорость обслуживания.

Важно отметить, что Microsoft и Adobe уже являются программными гигантами с четко определенными бизнес-сценариями и большим количеством платных пользователей. В то время как у большинства крупных моделей с большим количеством параметров основным сценарием применения все еще остается общение.

Неоспоримо, что если бы не OpenAI и ChatGPT, эта революция в области ИИ, возможно, не произошла бы; однако в настоящее время ценность, которую приносят большие модели, все еще вызывает вопросы. С усилением конкуренции и увеличением количества открытых моделей чисто поставщики больших моделей могут столкнуться с большими вызовами.

Успех iPhone 4 заключается не в 45-нм процессоре A4, а в том, что он может запускать такие приложения, как Plants vs. Zombies и Angry Birds.

GPT4.23%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Поделиться
комментарий
0/400
MetaverseLandlordvip
· 08-01 21:36
Чем вы занимаетесь? Давайте зарабатывать деньги.
Посмотреть ОригиналОтветить0
RektButStillHerevip
· 08-01 07:14
Деньги действительно могут позволить делать всё, что угодно. Это слишком абсурдно.
Посмотреть ОригиналОтветить0
SigmaBrainvip
· 07-30 01:56
Игрушки дорогие, действительно, если есть немного денег, хочется всё перевернуть.
Посмотреть ОригиналОтветить0
FrogInTheWellvip
· 07-30 01:53
Амбиции ОАЭ действительно велики.
Посмотреть ОригиналОтветить0
WalletDetectivevip
· 07-30 01:40
Разработка - это ерунда, в конечном итоге все зависит от толщины кошелька.
Посмотреть ОригиналОтветить0
  • Закрепить