Правда о ChatGPT и других AI: почему они врут с уверенностью?
Исследование, проведенное Tow Center for Digital Journalism, выявило, что AI-поисковые системы в среднем ошибаются в 60% случаев. В случае с Grok-3 этот показатель достигает 96%. Результаты исследования подтверждают, что крупные языковые модели (LLM) часто выдают недостоверную информацию, несмотря на уверенный тон ответов.
Как проводилось исследование
Команда исследователей протестировала восемь AI-поисковых систем, включая ChatGPT Search, Perplexity, Gemini, DeepSeek Search, Grok-2, Grok-3 и Copilot. Для анализа были выбраны 200 новостных статей от 20 изданий. Каждая статья возвращалась в топ-3 результатов Google при поиске по цитате из текста. Затем те же запросы были заданы в AI-инструментах, и результаты оценивались по трем критериям: правильность цитирования статьи, указание источника и корректность URL.
Точность ответов классифицировалась от «полностью верно» до «полностью неверно». Результаты показали, что, за исключением Perplexity и Perplexity Pro, большинство AI-поисковиков справляются с задачами плохо. В среднем ошибки встречаются в 60% случаев, причем AI часто демонстрируют уверенность в неверных ответах.
Худшие и лучшие результаты
- ChatGPT Search ответил на все 200 запросов, но только 28% ответов были полностью точными, а 57% — полностью неверными.
- Grok-3 Search оказался худшим с показателем в 94% ошибок.
- Copilot от Microsoft отказался отвечать на 104 запроса из 200. Из оставшихся 96 ответов только 16 были полностью верными, а 66 — полностью неверными, что делает его неточным в 70% случаев.
Почему AI так часто ошибаются?
Исследователи отмечают, что LLM часто «галлюцинируют», то есть выдают ложную информацию с уверенностью. Это подтверждается примерами из статьи Теда Джойа (The Honest Broker), где ChatGPT не только ошибался, но и настаивал на своей правоте, даже когда его ловили на лжи.
Платные vs бесплатные версии
Интересно, что платные версии AI-инструментов, такие как Perplexity Pro (20/месяц)иGrok−3Search(40/месяц), показывают немного больше правильных ответов, чем их бесплатные аналоги, но при этом имеют значительно более высокий уровень ошибок. Это ставит под вопрос ценность таких подписок.
Мнения экспертов
Не все согласны с выводами исследования. Ланс Уланофф из TechRadar, например, высоко оценил ChatGPT Search за его скорость, точность и чистый интерфейс без рекламы, заявив, что может полностью отказаться от Google.
Заключение
Исследование Tow Center подчеркивает необходимость большей прозрачности со стороны компаний, разрабатывающих AI-инструменты. Пользователи платят до $200 в месяц за доступ к этим технологиям, но не получают гарантий точности.