Нове спільне дослідження, проведене Microsoft Research і Salesforce, виявило цікаву тенденцію серед популярних чат-ботів із штучним інтелектом: точність їхніх відповідей суттєво погіршується під час довготривалих діалогів із користувачами. Аналіз понад 200 тисяч розмов продемонстрував, що кількість помилок може збільшитися більш ніж удвічі.
За останні роки провідні IT-компанії активно запускали нові великі мовні моделі з метою зміцнення своїх позицій на ринку. Однак користувачі часто відзначають наявність помилок і так званих «галюцинацій» у відповідях штучного інтелекту. Ця наукова робота підтверджує, що навіть найпотужніші нейромережі втрачають точність у багатокрокових діалогах, коли розмова розгортається на кілька ходів.
В експерименті було проаналізовано понад 200 тисяч розмов із провідними мовними моделями, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1. Якщо точність відповідей при коротких запитах сягає майже 90%, то в довгих діалогах із уточненнями цей показник падає до 65%. Таким чином, зі збільшенням складності й тривалості контексту ефективність штучного інтелекту помітно знижується.
Ще одна цікава знахідка – схильність чат-ботів до «роздування відповідей». У випадку багатокрокових розмов обсяг відповідей збільшувався від 20% до 300%. Водночас зростала кількість помилок та «галюцинацій», які закріплювалися в контексті та впливали на подальші репліки. Навіть моделі з удосконаленими механізмами аналізу, як OpenAI o3 і DeepSeek R1, не уникали цього явища.
Автори дослідження підкреслюють, що зниження якості відповідей у довготривалих бесідах не означає, що штучний інтелект стає «дурнішим». Це насамперед демонструє обмеження здатності моделі зберігати й правильно інтерпретувати великий обсяг інформації під час тривалого діалогу. Водночас ІІ продовжує демонструвати високі результати у відповіді на одноразові запити.
Видання Windows Central зауважує, що ці особливості слід брати до уваги при інтеграції чат-ботів у продукти, орієнтовані на довготривале спілкування з користувачем. Помилки та «галюцинації» можуть особливо збивати з пантелику користувачів, які покладаються на штучний інтелект як на джерело важливої інформації.
Наразі чат-бот ChatGPT контролює понад 80% світового ринку. Його найближчі конкуренти, Perplexity та Google Gemini, разом мають близько 15% користувачів.
Як повідомляв 8 канал, творці ChatGPT ризикують опинитися на межі банкрутства вже до середини 2027 року. Основна складність OpenAI полягає в тому, що більшість користувачів віддають перевагу безкоштовним версіям чат-ботів і охочіше переходять до конкурентів, аніж оплачують сервіс.

