Нещодавнє спільне дослідження Microsoft Research разом із Salesforce виявило, що популярні чат-боти на основі штучного інтелекту з часом втрачають точність у довготривалих діалогах з користувачами. Аналіз понад 200 тисяч розмов показав, що загальний рівень помилок може зрости більш ніж удвічі.
Упродовж останніх років провідні IT-компанії активно розвивають великі мовні моделі (LLM), прагнучи посісти лідируючі позиції на ринку. Проте користувачі все частіше звертають увагу на проблему так званих «галюцинацій» штучного інтелекту — випадків видачі неправдивих або некоректних відповідей. Нове дослідження підтверджує, що навіть найбільш просунуті нейромережі схильні до помилок у довгих бесідах із численними уточненнями.
У ході експерименту вчені опрацювали понад 200 тисяч діалогів за участю популярних мовних моделей, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1. Якщо при окремих запитах ці системи демонструють приблизно 90% точності, то у тривалих діалогах цей показник падає з 90 до 65%. Це свідчить про те, що з ростом складності контексту чат-боти менш ефективно сприймають і обробляють інформацію.
Крім того, учені звернули увагу на феномен «роздуття відповідей»: у багатокрокових бесідах довжина відповідей моделей збільшувалась від 20% до 300% від початкової, а кількість помилок та «галюцинацій» зростала. Ці помилки заглиблювалися в контекст діалогу і ставали підставою для помилкових наступних відповідей. Навіть моделі з підтримкою розширеного «мислення токенів» — як-то OpenAI o3 чи DeepSeek R1 — не змогли повністю уникнути цієї проблеми.
Автори дослідження наголошують, що падіння точності в тривалих діалогах не означає, що штучний інтелект «розумово деградує». Натомість це відображає обмеження моделей у збереженні та правильній інтерпретації великого обсягу інформації у процесі розмови. Водночас ШІ залишається ефективним у роботі з поодинокими запитами.
Як підкреслює видання Windows Central, врахування таких особливостей при впровадженні чат-ботів у продукти з тривалою взаємодією є дуже важливим. Інакше помилки та «галюцинації» можуть призвести до спотворення інформації, особливо коли користувачі довіряють ШІ як надійному джерелу важливих даних.
На сьогодні ChatGPT контролює понад 80% світового ринку чат-ботів. Найближчими конкурентами є Perplexity та Google Gemini, які разом утримують близько 15% користувачів.
За даними 8 каналу, творці ChatGPT можуть опинитися на межі банкрутства вже до середини 2027 року. Основною проблемою для OpenAI є те, що велика кількість користувачів все ще користується безкоштовними версіями чат-ботів, і вони швидше підуть до конкурентів, ніж почнуть оплачувати послуги.

