Компания Google представила WebLI-100B — самый крупный в мире датасет для обучения мультимодальных моделей, состоящий из 100 миллиардов пар "изображение-текст". Этот объем превышает существующие наборы данных в десять раз.
В исследовании также продемонстрировано, что десятикратное увеличение объема данных (с 10 до 100 миллиардов) незначительно влияет на результаты при использовании стандартных западных тестов, однако существенно улучшает:
-
Обработка контента различных культурных контекстов;
-
Понимание языков с ограниченными ресурсами;
-
Справедливое функционирование системы для различных групп пользователей.
Кроме того, впервые был выявлен значимый побочный эффект от применения методов фильтрации данных: широко используемые подходы, такие как CLIP, могут непреднамеренно сокращать культурное разнообразие в данных. В работе также подчеркивается важность сохранения разнообразия данных для создания по-настоящему инклюзивных систем искусственного интеллекта, несмотря на возможное снижение производительности на стандартных тестах.
Это исследование изменяет представление о подходах к обучению крупных ИИ-моделей, перенося акцент с достижения максимальной эффективности на учет социальных аспектов, таких как культурная инклюзивность и справедливость.