Исследование шокирует: AI-поисковики ошибаются в 60% случаев, а Grok-3 — в 96%!

Обновлено: 11 Мар, 21:05

Время чтения: 1 минута

Правда о ChatGPT и других AI: почему они врут с уверенностью?

Исследование, проведенное Tow Center for Digital Journalism, выявило, что AI-поисковые системы в среднем ошибаются в 60% случаев. В случае с Grok-3 этот показатель достигает 96%. Результаты исследования подтверждают, что крупные языковые модели (LLM) часто выдают недостоверную информацию, несмотря на уверенный тон ответов.

Как проводилось исследование

Команда исследователей протестировала восемь AI-поисковых систем, включая ChatGPT Search, Perplexity, Gemini, DeepSeek Search, Grok-2, Grok-3 и Copilot. Для анализа были выбраны 200 новостных статей от 20 изданий. Каждая статья возвращалась в топ-3 результатов Google при поиске по цитате из текста. Затем те же запросы были заданы в AI-инструментах, и результаты оценивались по трем критериям: правильность цитирования статьи, указание источника и корректность URL.

Точность ответов классифицировалась от «полностью верно» до «полностью неверно». Результаты показали, что, за исключением Perplexity и Perplexity Pro, большинство AI-поисковиков справляются с задачами плохо. В среднем ошибки встречаются в 60% случаев, причем AI часто демонстрируют уверенность в неверных ответах.

Худшие и лучшие результаты

ChatGPT Search ответил на все 200 запросов, но только 28% ответов были полностью точными, а 57% — полностью неверными.
Grok-3 Search оказался худшим с показателем в 94% ошибок.
Copilot от Microsoft отказался отвечать на 104 запроса из 200. Из оставшихся 96 ответов только 16 были полностью верными, а 66 — полностью неверными, что делает его неточным в 70% случаев.

Почему AI так часто ошибаются?

Исследователи отмечают, что LLM часто «галлюцинируют», то есть выдают ложную информацию с уверенностью. Это подтверждается примерами из статьи Теда Джойа (The Honest Broker), где ChatGPT не только ошибался, но и настаивал на своей правоте, даже когда его ловили на лжи.

Платные vs бесплатные версии

Интересно, что платные версии AI-инструментов, такие как Perplexity Pro ( $20/ месяц) и G ro k - 3 S e a rc h ($ 40/месяц), показывают немного больше правильных ответов, чем их бесплатные аналоги, но при этом имеют значительно более высокий уровень ошибок. Это ставит под вопрос ценность таких подписок.

Мнения экспертов

Не все согласны с выводами исследования. Ланс Уланофф из TechRadar, например, высоко оценил ChatGPT Search за его скорость, точность и чистый интерфейс без рекламы, заявив, что может полностью отказаться от Google.

Заключение

Исследование Tow Center подчеркивает необходимость большей прозрачности со стороны компаний, разрабатывающих AI-инструменты. Пользователи платят до $200 в месяц за доступ к этим технологиям, но не получают гарантий точности.

Оцените статью

Автор публикации

не в сети 10 месяцев

Александр Данилов

Техно-журналист с опытом ведения тех. блога более 5 лет. Люблю всё, что связано с новыми технологиями. Слежу за новинками, изучаю старые вещи. Знаю, что такое Linux и как поднять свой сервер. Ну а здесь я для того, чтобы рассказывать о новостях из мира технологий.

Комментарии: 0Публикации: 559Регистрация: 06-01-2025

Ты дочитал статью до конца, значит, нашёл в ней что-то интересное. Автор пыхтел над ней несколько дней, все пальцы стёр. Отблагодари его — оставь комментарий. Без тебя наше комьюнити будет неполным.

Присоединиться

Статья была полезной? Поделитесь с друзьями в соцсетях: