Элон Маск заявляет об исчерпании человеческих данных для обучения ИИ

Компании, специализирующиеся на разработке технологий искусственного интеллекта (ИИ), столкнулись с проблемой нехватки данных для обучения своих систем, сообщил Илон Маск. По мнению предпринимателя, в ближайшем будущем компании будут вынуждены перейти к использованию так называемых «синтетических» данных, которые создаются самими моделями ИИ, для разработки и улучшения новых систем.

Маск отметил, что современные модели ИИ, такие как GPT-40, используемая в чат-боте ChatGPT, обучаются на огромных объемах данных, собранных из сети Интернет. Эти данные позволяют моделям выявлять закономерности и строить прогнозы, например, предсказывая следующие слова в тексте.

В ходе прямого эфира на социальной платформе X предприниматель подчеркнул, что единственным способом преодоления дефицита исходного материала является переход на синтетические данные, созданные самим ИИ. При этом Маск выразил обеспокоенность тем, что ИИ-модели склонны генерировать «галлюцинации», то есть некорректную или бессмысленную информацию, что создает дополнительные сложности при использовании таких данных.

Некоторые крупные игроки рынка, уже используют синтетический контент для тренировки своих крупнейших ИИ-систем. Например, Microsoft задействовала этот подход в модели Phi-4. Аналогичные методы применяются и другими компаниями, такими как Google и OpenAI, разработчик ChatGPT.

Тем не менее, Маск предостерег о возможных негативных последствиях использования синтетического контента, указав на проблему «галлюцинаций». В своем интервью Марк Пенн, председатель рекламного агентства Stagwell, уточнил, что использование подобных данных усложняется необходимостью различить реальный и искусственный ответы.

Директор по фундаментальным исследованиям в области ИИ британского Института Алана Тьюринга Эндрю Дункан подтвердил актуальность проблемы, сославшись на недавнюю научную статью, согласно которой доступные для обучения ИИ публичные данные могут быть исчерпаны уже к 2026 году. Он также указал на риски, связанные с чрезмерной зависимостью от синтетических данных, включая ухудшение качества выходных результатов и снижение креативности.

Вопросы контроля и качества данных остаются важными аспектами в развитии индустрии ИИ. Так, OpenAI ранее признавала необходимость доступа к охраняемым авторскими правами материалам для создания инструментов вроде ChatGPT. Представители творческих отраслей и издательств настаивают на компенсации за использование их произведений в процессе обучения ИИ-моделей.

Вы здесь

Элон Маск заявляет об исчерпании человеческих данных для обучения ИИ