Google представили WebLI-100B

Компания Google представила WebLI-100B — самый крупный в мире датасет для обучения мультимодальных моделей, состоящий из 100 миллиардов пар "изображение-текст". Этот объем превышает существующие наборы данных в десять раз.

В исследовании также продемонстрировано, что десятикратное увеличение объема данных (с 10 до 100 миллиардов) незначительно влияет на результаты при использовании стандартных западных тестов, однако существенно улучшает:

Обработка контента различных культурных контекстов;
Понимание языков с ограниченными ресурсами;
Справедливое функционирование системы для различных групп пользователей.

Кроме того, впервые был выявлен значимый побочный эффект от применения методов фильтрации данных: широко используемые подходы, такие как CLIP, могут непреднамеренно сокращать культурное разнообразие в данных. В работе также подчеркивается важность сохранения разнообразия данных для создания по-настоящему инклюзивных систем искусственного интеллекта, несмотря на возможное снижение производительности на стандартных тестах.

Это исследование изменяет представление о подходах к обучению крупных ИИ-моделей, перенося акцент с достижения максимальной эффективности на учет социальных аспектов, таких как культурная инклюзивность и справедливость.

Вы здесь

Google представили WebLI-100B