【Как Sapien осуществляет постоянное обновление обучающих данных?】
А. Долгосрочная проблема обучения ИИ: данные не являются разовой задачей
В традиционном процессе обучения ИИ, как только определенные обучающие данные производятся и используются, задача считается завершенной, и роль вкладчика заканчивается. Проблемы, возникающие из-за такой модели данных с "одноразовым потреблением", очевидны: обучающие данные не обновляются, не могут динамически адаптироваться к итерациям модели, что приводит к тому, что рост возможностей модели заходит в тупик. В условиях постоянной эволюции человеческих знаний, если модели ИИ не смогут постоянно получать более глубокие, более специализированные и более актуальные данные, им будет сложно справиться с вызовами общего интеллекта.
Sapien пытается преодолеть это ограничение, не рассматривая задачи с данными как "проектные" поставки, а строя механизм эволюции данных с постоянным обновлением, позволяя обучающим данным иметь жизненный цикл, систему версий и динамическое обслуживание.
Как осуществить постоянное обновление данных?
Протокол Sapien разработан с трехуровневой механикой, которая обеспечивает долгосрочное обновление обучающих данных и постоянное улучшение их качества:
(1) Механизм версий задач: задачи одного типа будут периодически генерировать версии "v2", "v3" и т.д. в зависимости от частоты обновления модели, привлекая старых участников к повторному участию, а также вводя новые перспективы и дополнения, формируя многократные итерации обучающего набора;
(2) Механизм обратного визита, основанный на репутации: система на основе истории и репутационного веса тренера предлагает ему более высококлассные задачи или задачи по исправлению данных, реализуя механизм "старший обучает младшего" и "оптимизация специализированным человеком";
(3) Цепочка обратной связи на блокчейне: с помощью механизма обратной связи от пользователей модели автоматически помечаются данные, которые показывают плохие результаты или нуждаются в оптимизации, возвращаясь в пул для обучения данных, чтобы пригласить участников внести исправления и дополнения.
Эти механизмы обеспечивают то, что данные не являются статичными поставками, а обладают динамической способностью эволюции в три стадии: "версия — обслуживание — обновление".
Третье, новая роль хранителей данных: постоянные участники тренировочных данных
Механизмы Sapien изменили идентификацию традиционных работников с данными. Тренеры больше не являются просто поставщиками данных на определенном этапе, а становятся долгосрочными "поддерживателями данных" и "операторами интеллектуальных активов". Это не только повышает их ценность участия и влияние на систему, но также позволяет качеству данных развиваться в соответствии с темпом эволюции самого протокола.
В долгосрочной перспективе эта модель даже может в будущем привести к появлению «цепочки профессий по обновлению данных» — таких ролей, как аннотаторы, рецензенты, оптимизаторы, координаторы обратной связи и т.д., что приведет к созданию полной сети сотрудничества в области знаний, сосредоточенной вокруг жизненного цикла данных.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
【Как Sapien осуществляет постоянное обновление обучающих данных?】
А. Долгосрочная проблема обучения ИИ: данные не являются разовой задачей
В традиционном процессе обучения ИИ, как только определенные обучающие данные производятся и используются, задача считается завершенной, и роль вкладчика заканчивается. Проблемы, возникающие из-за такой модели данных с "одноразовым потреблением", очевидны: обучающие данные не обновляются, не могут динамически адаптироваться к итерациям модели, что приводит к тому, что рост возможностей модели заходит в тупик. В условиях постоянной эволюции человеческих знаний, если модели ИИ не смогут постоянно получать более глубокие, более специализированные и более актуальные данные, им будет сложно справиться с вызовами общего интеллекта.
Sapien пытается преодолеть это ограничение, не рассматривая задачи с данными как "проектные" поставки, а строя механизм эволюции данных с постоянным обновлением, позволяя обучающим данным иметь жизненный цикл, систему версий и динамическое обслуживание.
Как осуществить постоянное обновление данных?
Протокол Sapien разработан с трехуровневой механикой, которая обеспечивает долгосрочное обновление обучающих данных и постоянное улучшение их качества:
(1) Механизм версий задач: задачи одного типа будут периодически генерировать версии "v2", "v3" и т.д. в зависимости от частоты обновления модели, привлекая старых участников к повторному участию, а также вводя новые перспективы и дополнения, формируя многократные итерации обучающего набора;
(2) Механизм обратного визита, основанный на репутации: система на основе истории и репутационного веса тренера предлагает ему более высококлассные задачи или задачи по исправлению данных, реализуя механизм "старший обучает младшего" и "оптимизация специализированным человеком";
(3) Цепочка обратной связи на блокчейне: с помощью механизма обратной связи от пользователей модели автоматически помечаются данные, которые показывают плохие результаты или нуждаются в оптимизации, возвращаясь в пул для обучения данных, чтобы пригласить участников внести исправления и дополнения.
Эти механизмы обеспечивают то, что данные не являются статичными поставками, а обладают динамической способностью эволюции в три стадии: "версия — обслуживание — обновление".
Третье, новая роль хранителей данных: постоянные участники тренировочных данных
Механизмы Sapien изменили идентификацию традиционных работников с данными. Тренеры больше не являются просто поставщиками данных на определенном этапе, а становятся долгосрочными "поддерживателями данных" и "операторами интеллектуальных активов". Это не только повышает их ценность участия и влияние на систему, но также позволяет качеству данных развиваться в соответствии с темпом эволюции самого протокола.
В долгосрочной перспективе эта модель даже может в будущем привести к появлению «цепочки профессий по обновлению данных» — таких ролей, как аннотаторы, рецензенты, оптимизаторы, координаторы обратной связи и т.д., что приведет к созданию полной сети сотрудничества в области знаний, сосредоточенной вокруг жизненного цикла данных.