С ростом популярности искусственного интеллекта (ИИ) возникает неожиданная угроза для его дальнейшего развития: нехватка данных для обучения. Исследователи предупреждают, что в ближайшие годы отрасль может столкнуться с исчерпанием данных, необходимых для тренировки мощных алгоритмов ИИ.
Фото из открытых источников
Почему нехватка данных — проблема?
Для обучения точных и высокопроизводительных алгоритмов ИИ необходимо большое количество данных. Например, модель ChatGPT была обучена на 570 гигабайтах текстовых данных, подчеркивая важность объема данных для достижения качественных результатов.
Однако, качество данных также играет ключевую роль. Использование данных низкого качества, таких как сообщения в социальных сетях, может привести к предвзятости или даже выдаче некачественных результатов. Примером этого стал опыт Microsoft, который при обучении своего ИИ-бота с использованием данных из Twitter столкнулся с расистскими и неприемлемыми результатами.
Исследователи предсказывают, что высококачественные текстовые данные могут исчерпаться уже к 2026 году, что может оказать негативное воздействие на развитие ИИ. Эксперты также указывают на то, что данные изображений и языков низкого качества могут исчерпаться в период между 2030 и 2060 годами.
Несмотря на тревожные перспективы, эксперты предложили несколько возможных решений.
Возможные пути решения
Один из возможных подходов — улучшение алгоритмов обучения. Разработчики могут работать над более эффективным использованием уже имеющихся данных, что может сократить требования к объему и вычислительной мощности.
Другим вариантом является использование ИИ для создания синтетических данных. Разработчики могут генерировать необходимые данные, соответствующие своей модели, что может стать эффективным решением проблемы нехватки данных.
Недавние переговоры News Corp с разработчиками ИИ, предположительно, направлены на установление платных соглашений за использование новостных контентов в обучении ИИ. Это может стать важным шагом в направлении справедливого вознаграждения креативных контент-создателей.
Ситуация с нехваткой данных, хотя и представляет вызов для индустрии, однако также стимулирует разработчиков к поиску инновационных решений. Будущее ИИ может быть более обещающим, чем кажется, с улучшением алгоритмов и появлением синтетических данных.
Время покажет, сможет ли отрасль преодолеть нехватку данных и продолжит ли ИИ свой впечатляющий рост в ближайшие десятилетия.
Источник: esoreiter.ru