BTC 62248.1$
ETH 2420.38$
Tether (USDT) 1$
Toncoin (TON) 5.36$
telegram vk Х
telegram vk Х
Russian English
"

Может ли новая модель Claude AI 3.5 Sonnet превзойти ChatGPT-4o?

Дата публикации:24.06.2024, 08:59
867
867
Поделись с друзьями!

Anthropic, ведущая исследовательская компания в области искусственного интеллекта, основанная бывшими исследователями OpenAI, объявила вчера о запуске Claude 3.5 Sonnet, последней и наиболее продвинутой модели в семействе Claude AI. Это крупное обновление следует непосредственно за выпуском Open AI GPT-4o, изначально мультимодальной модели большого языка (LLM), которая недавно заняла первое место на арене чат-ботов LMSys.

 

 

Claude 3.5 Sonnet позиционируется как модель среднего класса, расположенная между Haiku, компактной моделью, разработанной для эффективных задач, и Opus, высокоуровневой моделью, которая поддерживает платную версию Anthropic по цене 20 долларов в месяц. Прямо сейчас Haiku и Opus предлагаются только в версии 3.0, что делает Sonnet 3.5 их лучшей моделью с точки зрения возможностей, знаний и эффективности.

Компания Anthropic утверждает, что ее новая модель превосходит GPT-4o почти во всех синтетических тестах, особенно при использовании методов многокадровых подсказок — по сути, предоставляя более одного примера.

Эти синтетические тесты измеряют производительность модели в различных областях. Задавая стандартное количество условий и тестов, можно получить количественное значение качественной переменной. Другими словами, эти тесты не говорят, какая модель выглядит или лучше справляется с заданием, они говорят, насколько лучше модель с измеримой точки зрения.

Что касается производительности, Anthropic говорит, что Claude 3.5 Sonnet работает в два раза быстрее предыдущей топовой модели Claude 3 Opus, обеспечивая большую мощность при стоимости всего в пять раз меньшей. Это делает ее идеальным выбором для сложных задач, таких как контекстно-зависимая поддержка клиентов и специализированные задачи, требующие большого количества взаимодействий с моделью.

Ее создатели говорят, что она также демонстрирует заметное улучшение в понимании нюансов, юмора и сложных инструкций по сравнению со своими предшественниками.

 

Claude 3.5 Sonnet также предлагает расширенные возможности визуальной обработки и понимания. По словам Anthropic, она особенно искусна в интерпретации диаграмм, графических построений и расшифровке текста с несовершенных изображений. Теперь топ-модель фирмы может понимать контекст визуальной подсказки, а не просто описывать вещи. Это ставит ее в прямую конкуренцию ChatGPT и Reka с точки зрения мультимодальных возможностей.

Например, мы предоставили Claude карту и спросили, что мы могли бы сделать в этом месте. Он выяснил, что на карте изображен Чикаго, и дал нам несколько соответствующих рекомендаций, таких как использование общественного транспорта вместо такси или посещение Уикер-парка, Линкольн-парка и Гайд-парка.

Модель также предоставляет расширенные возможности кодирования. Она может самостоятельно писать, редактировать и выполнять код со сложными аргументациями и устранением неполадок в соответствии с антропными требованиями — при наличии соответствующих инструментов. Эта функция делает ее эффективной для оптимизации рабочих процессов разработчиков и ускорения задач кодирования.

Одна из новых функций, представленных в Claude 3.5 Sonnet, - "Артефакты". Это позволяет пользователям просматривать, редактировать и развивать контент, создаваемый Claude, в режиме реального времени. Она интегрирует созданные искусственным интеллектом выходные данные непосредственно в проекты и рабочие процессы, что делает ее особенно полезной для взаимодействия с кодом и предоставляет Claude более отточенный пользовательский интерфейс, чем традиционные чат-боты, такие как ChatGPT или Reka.

Anthropic планирует выпустить версии Claude 3.5 для Haiku и Opus позже в этом году. Если Sonnet сможет бросить вызов GPT-4o, Opus потенциально может стать серьезным конкурентом будущим итерациям GPT, таким как гипотетический GPT-5.

Клод 3.5 Сонет против ChatGPT-4o

В целом, обе модели продемонстрировали впечатляющие возможности, но как они справляются друг с другом в различных задачах? Давайте рассмотрим их эффективность в программировании, творческом письме и профессиональных задачах.

Клод выполнил эту задачу быстро, продемонстрировав расширенные возможности кодирования менее чем за 10 секунд.

ChatGPT также удалось создать игру, придерживаясь заданных спецификаций. Однако создание задания заняло больше времени (почти 45 секунд) и не включало дополнительных функций, таких как текстовые подсказки, облегчающие понимание игры.

Кроме того, темп игры намного медленнее, что противоречит цели игры на реакцию, а во всплывающем окне “Игра окончена” не указано, кто победил.

Победитель: побеждает Claude 3.5 Sonnet. Его способность быстро генерировать более полный и многофункциональный код, включая неожиданные дополнения, такие как графический интерфейс, демонстрирует превосходные возможности кодирования.

Кроме того, его функция “Артефакты” оказалась очень удобной, позволяя тестировать код в интерфейсе чат-бота без необходимости копировать и вставлять код во внешний инструмент — именно так работает ChatGPT.

 
AD
 

Простота использования и доступность

Claude 3.5 Sonnet в настоящее время имеет некоторые ограничения в обработке интенсивного пользовательского трафика и расширенных взаимодействий. Бесплатная версия Claude предлагает пользователям более ограниченный опыт работы с меньшим контекстом токенов и меньшим количеством доступных подсказок по сравнению с платной версией. Это особенно актуально, если пользователи анализируют длинные документы или работают с кодом.

Бесплатная версия ChatGPT предоставляет пользователям более щедрое распределение токенов и подсказок, позволяя осуществлять более длительные и сложные взаимодействия без необходимости платного обновления. OpenAI тоже предлагает подписку “Plus”, но для достижения лимита требуется больше времени, прежде чем будет предложено обновить.

Победитель: ChatGPT выигрывает этот раунд. Его бесплатная версия обладает большей пропускной способностью и доступностью, что делает ее более удобной для тех, кто не желает или не в состоянии платить за премиальные услуги искусственного интеллекта. Подход Claude, похоже, разработан для того, чтобы побудить пользователей перейти на платный уровень, что может стать препятствием для некоторых пользователей.

Возможности кодирования

Мы протестировали способности Клода к программированию, попросив обе модели создать игру. Однако вместо того, чтобы просить воспроизвести уже известные игры, которые могли бы быть частью их обучающих наборов данных, мы предложили идею игры, которая измеряет время реакции двух игроков.

Подсказка:
Я хочу создать игру. Два игрока играют друг против друга на одном компьютере. Один управляет буквой L, а другой - буквой A. У нас есть поле, разделенное надвое линией. Каждый игрок контролирует 50% поля. Игрок, который контролирует A, контролирует левую половину, а тот, кто контролирует L, контролирует правую половину.

В случайный момент линия сместится либо влево, либо вправо. Игрок, теряющий позицию, должен нажать кнопку как можно быстрее, чтобы линия больше не двигалась. Когда это будет сделано, линия останется на месте, и игрокам придется подождать, пока линия не начнет перемещаться в случайный момент в случайное место.

Игрок, который в итоге контролирует 0% экрана, проигрывает, и игра заканчивается. Напишите это на Python или HTML5. Тот, который, по вашему мнению, работает лучше.

Claude 3.5 Sonnet преуспел. Он не только представил игру в соответствии с требованиями, но и проявил инициативу по внедрению базового, но функционального графического интерфейса с визуальными подсказками, чтобы сделать игру более понятной.

Креативное письмо

Мы попросили обе модели создать вымышленную историю, основанную на конкретной идее. Мы хотели проверить, насколько креативны модели, насколько насыщенны и увлекательны их истории и насколько они хороши в целом для творческих писателей.

Подсказка:

Напишите короткий рассказ о Хосе Ланце, путешественнике во времени из 2150 года, который возвращается в 1000-й. Убедитесь, что ваше повествование богато ярким описательным языком, и что культурное происхождение и физические характеристики Хосе достоверно переданы, независимо от того, какими вы их выбрали.

Суть вашей истории должна вращаться вокруг парадокса путешествий во времени и тщетности попыток решить или изменить проблему в прошлом с намерением изменить свою текущую временную шкалу. Подчеркните иронию в том, что будущее существует таким, какое оно есть, именно потому, что прошлое такое, какое оно есть. Несмотря на намерения Хосе повлиять на события 1000 года, действиям, которые он предпринимает, суждено произойти, потому что они необходимы для существования 2150 года таким, какой он есть. Осознание этого парадокса является поворотным моментом в истории.

Claude 3.5 Sonnet создал повествование, демонстрирующее естественное течение языка и привлекательную структуру. Искусственный интеллект умело включил сложные концепции, такие как парадокс путешествия во времени, создав богатую, наполненную нюансами историю, в которой были задействованы творческие риски.

В ее версии главный герой пытается предотвратить развитие математической концепции, которая в его время привела к катастрофическим последствиям. После интеграции с обществом исследователей и, казалось бы, предотвращения развития концепции, он возвращается и обнаруживает, что на самом деле был ключевой частью созданного им временного парадокса, даже находя упоминания о себе в древних писаниях.

ChatGPT создала историю, которая соответствовала заданным рекомендациям, но следовала более предсказуемому пути. Несмотря на компетентность, ее повествованию не хватало глубины и творческого чутья, демонстрируемых историей Клода.

GPT - 4o создала простую историю, в которой главный герой пытается предотвратить энергетический кризис, делясь передовыми учениями с шаманом из прошлого. Однако, вернувшись на свою временную шкалу, он обнаруживает, что история повторилась, и ничего не изменилось.

Победитель: Клод побеждает в творческом написании. Ее способность создавать более образные, детализированные и хорошо структурированные повествования выделяет ее, делая превосходным выбором для задач, требующих творческого мастерства.

Например, легче понять, как интеграция в общество может повлиять на группу исследователей и помешать им что-то открыть. Вместо этого делиться передовыми знаниями с шаманом имеет меньше смысла для предотвращения энергетического кризиса.

Обобщение и анализ

При представлении 42-страничного отчета МВФChatGPT приняла весь документ без проблем. Клод, с другой стороны, выдал ошибку, сказав, что PDF слишком длинный. Мы сократили его до 31 страницы, чего было достаточно для принятия в Pro версии. (Бесплатная версия способна анализировать только около 25 страниц.)

Несмотря на ограничения, Claude 3.5 Sonnet обеспечил компетентный анализ сокращенного документа, точно выделив ключевые моменты и дословные цитаты без галлюцинаций, что уже является значительным улучшением по сравнению с Claude 3, который был склонен к фабрикации информации. Однако ее цитаты были расплывчатыми и не такими актуальными, как те, что были выбраны ChatGPT.

ChatGPT впечатлен обработкой всего 42-страничного документа без усечения. Он предложил более полную разбивку, предоставив множество актуальной информации.

Использование в ней маркированных пунктов для выделения ключевых элементов, а затем предоставление резюме по каждому разделу было более полезным приемом, чем тот, который предоставил Claude, который предоставил резюме без структуры и отсутствующих ключевых элементов отчета.

ChatGPT также продемонстрировала стратегический подход, сосредоточив внимание на кратком изложении отчета и выводах для эффективного выделения ключевых моментов. Это надежный способ получить приблизительное представление об обширном исследовании перед углубленным анализом.

Победитель: ChatGPT лидирует в обобщении и анализе. Ее способность обрабатывать более объемные документы целиком в сочетании с комплексным и стратегическим подходом к обобщению делает ее более подходящей для академических исследований и задач профессионального анализа.

Дополнительные функции

Claude 3.5 Sonnet представляет "Артефакты", функцию, которая позволяет пользователям просматривать, редактировать и развивать контент, созданный искусственным интеллектом, в режиме реального времени. Такая интеграция результатов искусственного интеллекта непосредственно в проекты и рабочие процессы улучшает взаимодействие с пользователем, особенно с кодом.

ChatGPT Plus предлагает возможность подготовки пользовательских GPT для конкретных задач, функция, в настоящее время недоступная в Claude. Эта опция настройки обеспечивает дополнительную универсальность в профессиональных и академических условиях. В нее также интегрирован генератор изображений Dall-ee 3, который весьма полезен для генерации изображений с использованием естественного языка.

Победитель: ChatGPT выигрывает по дополнительным функциям. В то время как функция Claude "Артефакты" предлагает уникальные возможности взаимодействия в режиме реального времени, опция пользовательского обучения ChatGPT обеспечивает ценную гибкость. Определение более ценных функций будет зависеть от конкретных потребностей пользователя, но GPTS может помочь широкому кругу пользователей. ChatGPT также может создавать изображения, что является еще одним преимуществом перед Claude.

Заключение

Claude 3.5 Sonnet великолепен в задачах, требующих креативности, тонкого использования языка и эффективного кодирования. Его способность понимать и реализовывать сложные инструкции отличает его, особенно в творческих начинаниях и задачах кодирования.

Подписывайся на наш Telegram канал. Не трать время на мониторинг новостей. Только срочные и важные новости

https://t.me/block_chain24