Отец сверточных нейронных сетей Ян Ликун: я больше не заинтересован в модели LLM, эти четыре основные проблемы определят следующий шаг AI.

Эта статья взята из публичной беседы между Яном Лекуном, главным научным сотрудником по искусственному интеллекту в Meta и лауреатом премии Тьюринга, и Биллом Далли, главным научным сотрудником NVIDIA. Лекун считает, что повальное увлечение крупномасштабными языковыми моделями (LLM) близится к концу, и что будущее прорывов в области искусственного интеллекта будет заключаться в понимании физического мира, планировании логических выводов и моделях с открытым исходным кодом. (Синопсис: OpenAI выпускает o3 и o4-mini сильнейшие модели инференса: может думать о картинках, автоматически выбирать инструменты и совершать прорывы в математике и производительности кодирования) (Предыстория: OpenAI тайно создает свою собственную платформу сообщества, указывая на X Маска) Сегодня, когда волна искусственного интеллекта захлестнула мир, всеобщее внимание по-прежнему приковано к (LLM) больших языковых моделей В это время Ян Лекун, известный как отец сверточных нейронных сетей, а ныне главный научный сотрудник по искусственному интеллекту в Meta, недавно сделал удивительное заявление о том, что его интерес к LLM ослаб. В обстоятельной беседе с главным научным сотрудником NVIDIA Биллом Далли в прошлом месяце Лекун подробно рассказал о своем уникальном взгляде на будущее направление развития ИИ, подчеркнув, что понимание физического мира, долговременная память, возможности рассуждения и планирования, а также важность экосистемы с открытым исходным кодом являются ключом к руководству следующей волной революции ИИ. Попрощайтесь с мифом о LLM: почему ИИ должен лучше понимать мир? Лекун признает, что, несмотря на захватывающие разработки в области искусственного интеллекта за последний год, он считает, что LLM в значительной степени стал методом для отраслевых продуктовых команд, позволяющим совершенствоваться на пределе возможностей, таких как работа с большими наборами данных, большей вычислительной мощностью и даже генерация синтетических данных для обучения моделей. Он считает, что это не самые перспективные направления исследований. Вместо этого он нацелился на четыре более фундаментальные задачи: понимание физического мира: заставить машины понимать реальные законы окружающей среды, в которой мы живем. Обеспечьте длительную память: позвольте ИИ накапливать и применять опыт, как человек. Способность рассуждать: Лекун считает, что нынешний способ рассуждений с LLM слишком упрощен и требует более фундаментального подхода. Реализуйте возможности планирования: предоставьте ИИ возможность прогнозировать последствия действий и составлять планы. Лекун подчеркивает, что человеческие младенцы изучают основные модели физического мира, такие как разница между опрокидыванием и раздвижными бутылками с водой, в течение нескольких месяцев после рождения. Это интуитивное понимание того, как устроен мир, является фундаментальным для нашего взаимодействия с реальным миром, гораздо более сложным, чем работа с языком. Он считает, что для того, чтобы ИИ действительно понимал реальный мир и реагировал на него, требуемая архитектура будет полностью отличаться от нынешнего мейнстрима LLM. Далее он объяснил, что суть LLM заключается в том, чтобы предсказывать следующий «символ». В то время как символы могут быть любыми, например, в модели автономного вождения, где символы, вводимые датчиками, в конечном итоге создают символы, которые управляют автомобилем, что в некоторой степени является рассуждением о физическом мире (например, суждение о том, где безопасно ездить), этот дискретный подход, основанный на символах, имеет свои ограничения. Лекун отмечает, что типичное количество символов LLM составляет около 100 000, и модель выдает распределение вероятностей, которое охватывает все возможные символы. Однако этот подход трудно применить к многомерным, непрерывным данным реального мира, таким как пленка. «Все попытки заставить систему понимать мир или моделировать мир путем прогнозирования пиксельных деталей в фильме в основном провалились». Лекун упоминает, что опыт последних 20 лет показал, что даже методы обучения представлению изображений, такие как автоэнкодеры, путем реконструкции поврежденных или преобразованных изображений, не так эффективны, как архитектура «федеративного встраивания», которую он отстаивает (Joint Embedding). Последний не пытается реконструировать (representation) пиксельном уровне, а изучает абстрактное представление изображения или фильма и делает предсказания в этом абстрактном пространстве. Например, если вы снимаете комнату на видео, а затем останавливаетесь и просите систему предсказать следующую картинку, система может предсказать, кто сидит в комнате, но она не может точно предсказать, как будут выглядеть все, потому что детали непредсказуемы. Если вы заставите модель прогнозировать эти детали на уровне пикселей, вы потратите много ресурсов на задачи, которые не могут быть достигнуты. «Попытки самоконтролируемого обучения с помощью предиктивного видео не будут работать, только на уровне репрезентации». Это означает, что архитектура модели, которая по-настоящему понимает мир, может не быть генеративной. Модель мира и JAPA: путь к истинному рассуждению Итак, как бы выглядела модель, которая могла бы понимать физический мир, иметь длительную память и программировать рассуждения, если бы не LLM? Лекун считает, что ответ кроется в (World Models) «модели мира». Модель мира, объясняет он, является нашим внутренним симулятором того, как устроен мир, позволяя нам манипулировать идеями в нашем сознании и предсказывать последствия наших действий. Это основной механизм человеческого планирования и рассуждений, и мы не мыслим в символическом пространстве. В JAPA( году он придумал концепцию встраивания предиктивной архитектуры, )Joint под названием «Совместное встраивание предиктивной архитектуры». Эта архитектура работает путем подачи фрагмента фильма или изображения в кодировщик для получения представления, затем передачи последующих фильмов или изображений в другой кодировщик, а затем попытка сделать прогнозы в «пространстве представления», а не в исходном входном пространстве (например, пикселях или символах). Несмотря на то, что можно использовать метод обучения «заполнение пробелов», операция происходит в абстрактном латентном пространстве (latent space). Сложность этого подхода заключается в том, что при неправильном проектировании система может «дать сбой», то есть проигнорировать входные данные, и выдать только постоянное и неинформативное представление. Лекун говорит, что только пять или шесть лет назад появились технологии, позволяющие эффективно предотвратить это. В последние годы он и его коллеги опубликовали несколько статей о предварительных результатах JAPA World Model. Цель JAPA — построить предиктор: когда система наблюдает за видео, она формирует понимание текущего состояния мира; Затем он должен быть в состоянии предсказать, «каким будет следующее состояние мира, если я предприму воображаемое действие». С помощью такого предиктора ИИ может спланировать ряд действий для достижения конкретной цели. Лекун твердо верит в то, что это верный способ достижения истинных рассуждений и планирования, намного лучший, чем некоторые из сегодняшних так называемых «суррогатных систем рассуждений». Эти системы, как правило, генерируют большое количество символьных последовательностей, а затем используют другую нейронную сеть для выбора наилучшей последовательности, подход, который Лекун описывает как «случайное написание программы и последующее тестирование того, какая из них работает», что крайне неэффективно и ненадежно. Лекун также оспаривает утверждения некоторых исследователей ИИ о том, что общий искусственный интеллект (AGI) или то, что он предпочитает называть продвинутым машинным интеллектом, (AMI, Advanced Machine Intelligence), не за горами. Он считает, что идея о том, что интеллект человеческого уровня может быть достигнут простым масштабированием LLM и генерацией массивных последовательностей символов, является (nonsense) «нонсенсом». Хотя он ожидает, что в ближайшие 3-5 лет он сможет освоить построение систем с абстрактными моделями мира и использовать их для планирования логических выводов в небольших масштабах, и, возможно, достигнет человеческого уровня примерно через десять лет, он подчеркивает, что исследователи ИИ неоднократно заявляли о том, что грядет революция, и результаты оказались чрезмерно оптимистичными. «Сейчас эта волна тоже неправильная». Он считает, что ИИ достиг уровня докторантуры в определенной области или...

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить