Розмови про розвиток штучного інтелекту давно вийшли за межі академічних дискусій. Останніми роками це перетворилося на справжнє технологічне протистояння між гігантами індустрії, де кожне нове оновлення моделі подають майже як відповідь на виклик конкурентів. Саме в такій атмосфері 2 грудня 2025 року всередині OpenAI пролунало тривожне попередження: генеральний директор компанії Сем Альтман, за повідомленнями медіа, оголосив так званий Code Red – внутрішній сигнал максимальної мобілізації.
Причиною стала серія потужних анонсів від суперників. 18 листопада Google представила Gemini 3, зокрема версії Gemini 3 Pro та 3 Deep Think, а вже 24 листопада компанія Anthropic випустила Claude Opus 4.5. Обидві події миттєво розбурхали ринок штучного інтелекту: аналітики й оглядачі заговорили про те, що ChatGPT втрачає перевагу. 9 грудня видання The Atlantic опублікувало резонансний текст із висновком, що OpenAI «відстає в перегонах ШІ» і вже тривалий час не демонструє переконливого лідерства в головних тестах для мовних моделей.
Та ситуація змінилася буквально за кілька днів. 11 грудня OpenAI випустила оновлення GPT‑5.2, і ChatGPT знову вийшов у лідери в низці важливих напрямків. Ця історія добре ілюструє, наскільки стрімко змінюється ландшафт штучного інтелекту: те, що сьогодні здається програшем, завтра може виявитися лише паузою перед новим ривком.
За що саме борються: різні моделі – різні сильні сторони
Попри гучні заголовки, запитання «чи є ChatGPT найкращою моделлю» не має простої відповіді. Різні системи штучного інтелекту створюють із різним акцентом – і в кожної свої переваги. OpenAI наголошує, що GPT‑5.2 краще впорається з професійними завданнями: складними багатокроковими проєктами, підготовкою презентацій, роботою з електронними таблицями, тобто тим, що важливо для офісів, консультантів, аналітиків та менеджерів.
Google зі своїм Gemini 3 робить ставку на мультимодальність: це здатність одночасно працювати з текстом, зображеннями, відео та іншими типами даних, а також тонко вловлювати підтексти й емоційні відтінки. Anthropic зі своїм Claude Opus 4.5 приділяє велику увагу “агентним” можливостям у програмуванні – йдеться про написання коду, пошук помилок, удосконалення програмних рішень і здатність моделі діяти як напівавтономний помічник розробника.
Так формується нова реальність: жодна система не є беззаперечним чемпіоном в усіх сферах. Для юриста чи консультанта з корпоративних фінансів ChatGPT може виявитися зручнішим. Розробнику, який годинами відлагоджує код, буде ближчим Claude. А творцям контенту багатьох типів, від відео до інтерактивних форматів, може більше сподобатися Gemini.
Як ChatGPT виглядає в тестах: від GPQA Diamond до Humanity’s Last Exam
Світи штучного інтелекту й наукових досліджень тісно переплетені, тому для оцінки можливостей моделей використовують складні стандартизовані випробування. Їх називають бенчмарками – контрольними наборами завдань, на яких перевіряють, як система розуміє текст, міркує, рахує, аналізує зображення або комбінує різні вміння.
Такі тести мають свої вади. Високий відсоток правильних відповідей не завжди означає зручність у щоденній роботі, а іноді компанії надто «натаскують» моделі саме на ці завдання. Та попри недоліки, саме ці результати дають найоб’єктивніше порівняння можливостей різних ШІ.
GPQA Diamond: наукове мислення, де ChatGPT попереду
Один із найпоказовіших тестів – GPQA Diamond. Це складний іспит зі наукового міркування, побудований на питаннях високого рівня з фізики, біології, математики та суміжних наук. Ідея в тому, щоб не лише перевірити пам’ять моделі, а й її здатність робити логічні висновки, поєднувати факти та розв’язувати нетривіальні задачі.
У цьому випробуванні ChatGPT 5.2 Pro набрав 93,2% – зараз це найвищий результат серед усіх відомих систем. Gemini 3 Pro від Google посів друге місце з 91,9%. Така перевага важлива для тих, хто працює з науковими публікаціями, дослідницькими проєктами, медичними або інженерними задачами й покладається на якість логічних висновків моделі.
ARC-AGI 2: візуальні головоломки, де лідирує Claude
Зовсім іншу сторону штучного інтелекту перевіряє ARC‑AGI 2 – набір візуальних головоломок, спеціально створених так, щоб вони були інтуїтивними для людини, але неочевидними для алгоритмів. Це задачі, де потрібно побачити закономірність у простих формах, кольорах та їх комбінаціях. За задумом авторів, такий тест перевіряє «зоровий здоровий глузд», який машині особливо складно наслідувати.
Саме в цьому випробуванні ChatGPT виступає слабше, поступаючись Claude Opus 4.5, який значно випереджає конкурентів. Цей контраст добре показує, як моделі, які впевнено почуваються в наукових міркуваннях, можуть відставати там, де потрібне гнучке сприйняття візуальних патернів.
Humanity’s Last Exam: тест, після якого людині нічого більше запропонувати
Ще один амбітний бенчмарк має промовисту назву Humanity’s Last Exam – «Останній іспит людства». Це набір відкритих завдань експертного рівня з різних галузей, які часто виявляються надто складними навіть для найкращих випускників провідних університетів. Ідея розробників проста: коли штучний інтелект стабільно перевершить людей за результатами цього випробування, людство фактично втратить можливість створювати нові, ще складніші тести, за якими можна буде оцінити інтелектуальний прогрес машин.
Наразі найкращий показник у Humanity’s Last Exam має Gemini 3 Pro – 45,8%. ChatGPT 5.2 Pro, за заявою OpenAI, набирає 36,6%. Це поліпшення порівняно з GPT‑5 (35,2%), але все ще третя позиція: попереду як Gemini, так і менш відома, проте амбітна відкрита модель Kimi K2 Thinking з результатом 44,9%.
Чи означає це, що OpenAI програє?
Якщо дивитися лише на сухі цифри тестів, ChatGPT стабільно входить до п’ятірки найсильніших систем і в окремих категоріях виходить на перше місце. На цьому тлі твердження про «відставання» може звучати перебільшено. Однак контекст тут не менш важливий за процентні показники.
У 2023‑му та більшій частині 2024 року OpenAI суттєво випереджала конкурентів. ChatGPT часто був першим практично в усіх головних бенчмарках, а ім’я компанії стало синонімом до самого поняття «чатбот на основі ШІ». Тепер картина інша: Google з Gemini, Anthropic із Claude, а також низка відкритих моделей наздогнали й місцями обігнали ChatGPT. Перевага OpenAI перестала бути беззаперечною.
LMArena: думка користувачів проти лабораторних тестів
Окрім формальних іспитів, існують платформи, де моделі оцінюють не дослідники, а звичайні користувачі. Одна з найвідоміших – LMArena (раніше Chatbot Arena). Там люди анонімно порівнюють відповіді різних систем, не знаючи, яка саме модель стоїть за кожною з них, і голосують за те, що здається кориснішим або переконливішим.
На момент, про який йдеться в матеріалі, загальним фаворитом LMArena є Gemini 3 Pro. ChatGPT опускається до восьмої позиції – разючий контраст із 2023 роком, коли він упевнено очолював рейтинг, і навіть із середини 2024‑го, коли ще зберігав першість. Наприкінці 2024 року Gemini вперше вийшов уперед, і протягом 2025 року великі компанії постійно змінюють одна одну на вершині списків після кожного великого оновлення.
Та цей «гойдалковий» ефект є наслідком безпрецедентно швидкого темпу інновацій: щойно одна команда викочує нову версію моделі, яка вражає здатністю міркувати чи писати код, суперники готують свою відповідь – і картина знову змінюється.
Перевага Google і Microsoft: ШІ там, де користувач уже живе
Окрема історія – те, як саме компанії інтегрують штучний інтелект у повсякденне життя людей. І тут у Google та Microsoft справді є сильний аргумент: вони вбудовують свої системи безпосередньо в сервіси, якими світ користується щодня. Gemini все глибше інтегрують у пошук Google, Gmail, Google Docs, Google Sheets та інші інструменти, без яких важко уявити сучасний офіс чи навчальний процес. Microsoft Copilot поступово вростає в Windows, Outlook, Word, PowerPoint і Excel, фактично стаючи невидимим помічником для сотень мільйонів користувачів, які вже давно звикли до продуктів компанії.
OpenAI не має подібної імперії застосунків, які стали повсякденними для більшості офісних працівників чи школярів. Натомість ChatGPT існує як окремий сервіс: до нього треба свідомо зайти через сайт або застосунок, а не просто натрапити дорогою до щоденних справ у пошті чи редакторі документів. Саме тому аналітики й говорять про структурну перевагу Google та Microsoft у гонитві за масовим впровадженням ШІ у робочі процеси.
Попри все: ChatGPT – головний “воротар” у світ ШІ для масової аудиторії
Та якщо відмовитися від професійних тестів і рейтингів на кшталт LMArena й подивитися на суху статистику відвідуваності, картина стає зовсім іншою. ChatGPT залишається наймасовішим інструментом штучного інтелекту на планеті. На нього припадає близько 5,6 мільярда відвідувань щомісяця, і оцінки свідчать, що це приблизно 60% усіх звернень до різних ШІ‑сервісів у світі.
Інакше кажучи, ринок мовних моделей давно не обмежується ChatGPT, але саме він досі збирає переважну більшість запитів. Частка використання ChatGPT більша, ніж у Gemini, Claude, Grok, Copilot і десятків інших сервісів разом узятих. Для мільйонів людей у різних країнах саме ця платформа стала першим досвідом спілкування з потужною мовною моделлю, а у свідомості широкої аудиторії назва ChatGPT часом сприймається майже як загальна назва для розмовних ШІ‑асистентів.
Показово й те, що більшість користувачів майже не цікавляться деталями тестів чи назвами бенчмарків. Їм важливо, щоб сервіс швидко відповідав, не плутався в простих завданнях, допомагав з навчанням, роботою та побутом – від підготовки резюме до пояснення складної теми зі шкільної фізики чи допомоги в листуванні англійською. І саме в цій площині ChatGPT досі залишається безальтернативним фаворитом масової аудиторії, навіть якщо наукові таблиці показують більш строкату картину.