OpenAI сотрудничала с профессиональными актерами озвучивания, чтобы обучить моделей говорить.
Пространство генеративного искусственного интеллекта (AI) продолжает расширяться, поскольку OpenAI представила GPT-4V, модель с поддержкой зрения, и мультимодальные режимы разговора для своей системы ChatGPT.
Благодаря новым обновлениям, анонсированным 25 сентября, пользователи ChatGPT смогут вовлекать чат-бота в разговоры. Модели, работающие с ChatGPT, GPT-3.5 и GPT-4, теперь могут понимать разговорные запросы на обычном языке и отвечать одним из пяти разных голосов.
ChatGPT теперь может видеть, слышать и говорить. Запуск в течение следующих двух недель, плюс пользователи смогут вести голосовые беседы с ChatGPT (iOS и Android) и включать изображения в разговоры (на всех платформах). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb— OpenAI (@OpenAI) 25 сентября 2023 года
Согласно сообщению в блоге OpenAI, этот новый мультимодальный интерфейс позволит пользователям взаимодействовать с ChatGPT новыми способами:
“Сделайте снимок достопримечательности во время путешествия и поговорите вживую о том, что в ней интересного. Когда вы будете дома, сделайте снимки своего холодильника и кладовой, чтобы выяснить, что у нас на ужин (и задайте дополнительные вопросы о пошаговом рецепте). После ужина помогите своему ребенку решить математическую задачу, сделав фотографию, обведя набор задач кружком и попросив его поделиться подсказками с вами обоими. ”
Обновленная версия ChatGPT будет доступна пользователям Plus и корпоративным пользователям на мобильных платформах в ближайшие две недели, а разработчики и другие пользователи получат к ней доступ “вскоре после этого”.
Мультимодальное обновление ChatGPT появилось сразу после запуска DALL-E 3, самой передовой системы генерации изображений OpenAI.
Согласно OpenAI, DALL-E 3 также интегрирует обработку естественного языка. Это позволяет пользователям общаться с моделью для точной настройки результатов и интегрировать ChatGPT для получения помощи в создании подсказок к изображениям.