Исследование шокирует: AI-поисковики ошибаются в 60% случаев, а Grok-3 — в 96%!

Новости
   Время чтения: 1 минута
0
4

Правда о ChatGPT и других AI: почему они врут с уверенностью?

Исследование, проведенное Tow Center for Digital Journalism, выявило, что AI-поисковые системы в среднем ошибаются в 60% случаев. В случае с Grok-3 этот показатель достигает 96%. Результаты исследования подтверждают, что крупные языковые модели (LLM) часто выдают недостоверную информацию, несмотря на уверенный тон ответов.

Как проводилось исследование

Команда исследователей протестировала восемь AI-поисковых систем, включая ChatGPT Search, Perplexity, Gemini, DeepSeek Search, Grok-2, Grok-3 и Copilot. Для анализа были выбраны 200 новостных статей от 20 изданий. Каждая статья возвращалась в топ-3 результатов Google при поиске по цитате из текста. Затем те же запросы были заданы в AI-инструментах, и результаты оценивались по трем критериям: правильность цитирования статьи, указание источника и корректность URL.

Точность ответов классифицировалась от «полностью верно» до «полностью неверно». Результаты показали, что, за исключением Perplexity и Perplexity Pro, большинство AI-поисковиков справляются с задачами плохо. В среднем ошибки встречаются в 60% случаев, причем AI часто демонстрируют уверенность в неверных ответах.

Худшие и лучшие результаты

  • ChatGPT Search ответил на все 200 запросов, но только 28% ответов были полностью точными, а 57% — полностью неверными.
  • Grok-3 Search оказался худшим с показателем в 94% ошибок.
  • Copilot от Microsoft отказался отвечать на 104 запроса из 200. Из оставшихся 96 ответов только 16 были полностью верными, а 66 — полностью неверными, что делает его неточным в 70% случаев.

Почему AI так часто ошибаются?

Исследователи отмечают, что LLM часто «галлюцинируют», то есть выдают ложную информацию с уверенностью. Это подтверждается примерами из статьи Теда Джойа (The Honest Broker), где ChatGPT не только ошибался, но и настаивал на своей правоте, даже когда его ловили на лжи.

Платные vs бесплатные версии

Интересно, что платные версии AI-инструментов, такие как Perplexity Pro (20/месяц)иGrok−3Search(40/месяц), показывают немного больше правильных ответов, чем их бесплатные аналоги, но при этом имеют значительно более высокий уровень ошибок. Это ставит под вопрос ценность таких подписок.

Мнения экспертов

Не все согласны с выводами исследования. Ланс Уланофф из TechRadar, например, высоко оценил ChatGPT Search за его скорость, точность и чистый интерфейс без рекламы, заявив, что может полностью отказаться от Google.

Заключение

Исследование Tow Center подчеркивает необходимость большей прозрачности со стороны компаний, разрабатывающих AI-инструменты. Пользователи платят до $200 в месяц за доступ к этим технологиям, но не получают гарантий точности.

 

Оцените статью

Ты дочитал статью до конца, значит, нашёл в ней что-то интересное. Автор пыхтел над ней несколько дней, все пальцы стёр. Отблагодари его — подпишись на Телегу. Без тебя наше комьюнити будет неполным.

Статья была полезной? Поделитесь с друзьями в соцсетях:

Ещё по теме:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Заполните поле
Заполните поле
Пожалуйста, введите корректный адрес email.

Самые популярные
за последний месяц: