Новейшая модель GPT-5.5 от OpenAI уверенно возглавила Intelligence Index по версии Artificial Analysis. Она обошла ближайших конкурентов на три пункта, прервав равенство между ведущими ИИ-разработчиками, однако ее лидерство омрачено одной весьма тревожной особенностью.
Artificial Analysis присвоила модели GPT-5.5 первое место в своем престижном Intelligence Index. Эта новая разработка от OpenAI сумела опередить ближайших соперников сразу на три пункта, тем самым нарушив прежнюю ничью между такими гигантами, как OpenAI, Anthropic и Google.
Специалисты Artificial Analysis получили эксклюзивный предварительный доступ к модели, что позволило им тщательно протестировать все пять уровней ее рассуждения: xhigh, high, medium, low и non-reasoning. Однако, несмотря на впечатляющие результаты, в отчете содержится весьма существенная оговорка.
На бенчмарке AA-Omniscience, который оценивает знание фактов и склонность к "галлюцинациям", версия GPT-5.5 xhigh продемонстрировала лучшую точность. Она дала 57% верных ответов на исключительно сложные вопросы, что является выдающимся показателем.
Однако уровень галлюцинаций у этой модели оказался шокирующе высоким — 86%. Для сравнения, у Claude Opus 4.7 max этот показатель составил всего 36%, а у Gemini 3.1 Pro Preview — 50%. Важно понимать, что 86% не означает, что GPT-5.5 "галлюцинирует" в большинстве своих ответов. Согласно методологии Artificial Analysis, "hallucination rate" — это процент неверных ответов среди всех ситуаций, когда модель не смогла дать абсолютно правильный ответ.
Сюда входят случаи, когда ИИ ошибся, ответил лишь частично или вовсе отказался от ответа. Проще говоря, эта метрика ярко демонстрирует, насколько часто модель предпочитает уверенно ошибиться, вместо того чтобы честно признать свое незнание.
Бенчмарк AA-Omniscience был разработан специально для выявления и оценки этой критической проблемы. Тест включает в себя 6000 вопросов, охватывающих 42 темы из шести обширных областей знаний.
Среди них: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, а также наука, техника и математика. Модели отвечают на эти вопросы без доступа к поиску или каким-либо внешним инструментам.
Система оценки поощряет исключительно правильные ответы, при этом наказывая за неверные. Важно отметить, что модель не штрафуется за отказ от ответа, если она не уверена в своих знаниях. Сама компания OpenAI в своем System Card заявляет, что GPT-5.5 стала заметно точнее по сравнению с GPT-5.4. Это было отмечено на выборке диалогов ChatGPT, которые ранее пользователи идентифицировали как содержащие фактические ошибки.
В этих специфических случаях отдельные утверждения оказались корректными на 23% чаще, а количество фактических ошибок в ответах сократилось на 3%. Однако OpenAI подчеркивает, что это не является репрезентативной выборкой всего трафика, а лишь специально подобранными, наиболее сложными для фактологической точности сценариями.
В итоге перед нами предстает весьма парадоксальная картина. GPT-5.5, согласно независимому рейтингу, выглядит как мощнейшая универсальная модель, которая действительно превосходит конкурентов в знаниях по AA-Omniscience.
Однако она демонстрирует худшую способность калибровать собственную уверенность в ответах. Для критически важных задач, таких как фактчекинг, исследования, подготовка юридических или медицинских справок, этот аспект может быть не менее значимым, чем ее общий балл в рейтинге. Убедительный, но потенциально ошибочный ответ от такой сильной модели все равно требует тщательной проверки. Это особенно актуально, если ИИ функционирует без доступа к внешним источникам и инструментам.