BTC 95666.3$
ETH 2632.57$
Tether (USDT) 1$
Toncoin (TON) 3.67$
telegram vk
telegram vk Х
Russian English
"

Google представили WebLI-100B

Дата публикации:13.02.2025, 06:29
176
176
Поделись с друзьями!

Компания Google представила WebLI-100B — самый крупный в мире датасет для обучения мультимодальных моделей, состоящий из 100 миллиардов пар "изображение-текст". Этот объем превышает существующие наборы данных в десять раз.

В исследовании также продемонстрировано, что десятикратное увеличение объема данных (с 10 до 100 миллиардов) незначительно влияет на результаты при использовании стандартных западных тестов, однако существенно улучшает:

  • Обработка контента различных культурных контекстов;

  • Понимание языков с ограниченными ресурсами;

  • Справедливое функционирование системы для различных групп пользователей.

Кроме того, впервые был выявлен значимый побочный эффект от применения методов фильтрации данных: широко используемые подходы, такие как CLIP, могут непреднамеренно сокращать культурное разнообразие в данных. В работе также подчеркивается важность сохранения разнообразия данных для создания по-настоящему инклюзивных систем искусственного интеллекта, несмотря на возможное снижение производительности на стандартных тестах.

Это исследование изменяет представление о подходах к обучению крупных ИИ-моделей, перенося акцент с достижения максимальной эффективности на учет социальных аспектов, таких как культурная инклюзивность и справедливость.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24