Дослідження Microsoft виявило зниження ефективності ІІ чат-ботів під час тривалої взаємодії з користувачами

Нове спільне дослідження, проведене Microsoft Research і Salesforce, виявило цікаву тенденцію серед популярних чат-ботів із штучним інтелектом: точність їхніх відповідей суттєво погіршується під час довготривалих діалогів із користувачами. Аналіз понад 200 тисяч розмов продемонстрував, що кількість помилок може збільшитися більш ніж удвічі.

За останні роки провідні IT-компанії активно запускали нові великі мовні моделі з метою зміцнення своїх позицій на ринку. Однак користувачі часто відзначають наявність помилок і так званих «галюцинацій» у відповідях штучного інтелекту. Ця наукова робота підтверджує, що навіть найпотужніші нейромережі втрачають точність у багатокрокових діалогах, коли розмова розгортається на кілька ходів.

В експерименті було проаналізовано понад 200 тисяч розмов із провідними мовними моделями, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1. Якщо точність відповідей при коротких запитах сягає майже 90%, то в довгих діалогах із уточненнями цей показник падає до 65%. Таким чином, зі збільшенням складності й тривалості контексту ефективність штучного інтелекту помітно знижується.

Ще одна цікава знахідка – схильність чат-ботів до «роздування відповідей». У випадку багатокрокових розмов обсяг відповідей збільшувався від 20% до 300%. Водночас зростала кількість помилок та «галюцинацій», які закріплювалися в контексті та впливали на подальші репліки. Навіть моделі з удосконаленими механізмами аналізу, як OpenAI o3 і DeepSeek R1, не уникали цього явища.

Автори дослідження підкреслюють, що зниження якості відповідей у довготривалих бесідах не означає, що штучний інтелект стає «дурнішим». Це насамперед демонструє обмеження здатності моделі зберігати й правильно інтерпретувати великий обсяг інформації під час тривалого діалогу. Водночас ІІ продовжує демонструвати високі результати у відповіді на одноразові запити.

Видання Windows Central зауважує, що ці особливості слід брати до уваги при інтеграції чат-ботів у продукти, орієнтовані на довготривале спілкування з користувачем. Помилки та «галюцинації» можуть особливо збивати з пантелику користувачів, які покладаються на штучний інтелект як на джерело важливої інформації.

Наразі чат-бот ChatGPT контролює понад 80% світового ринку. Його найближчі конкуренти, Perplexity та Google Gemini, разом мають близько 15% користувачів.

Як повідомляв 8 канал, творці ChatGPT ризикують опинитися на межі банкрутства вже до середини 2027 року. Основна складність OpenAI полягає в тому, що більшість користувачів віддають перевагу безкоштовним версіям чат-ботів і охочіше переходять до конкурентів, аніж оплачують сервіс.

Автор

Дмитро Єрьомін
Головний редактор новин медіахолдингу "8 канал", досвідчений журналіст та медіаменеджер з понад 11-річним стажем роботи в українських ЗМІ.

What's Hot

Ці моделі купують без роздумів які бензинові автомобілі обирають українці

Дослідження Microsoft виявило зниження ефективності ІІ чат-ботів під час тривалої взаємодії з користувачами

Дослідження Microsoft свідчить що чатботи ІІ втрачають ефективність під час тривалого спілкування з людьми

Дослідження Microsoft виявило зниження ефективності ІІ чат-ботів під час тривалої взаємодії з користувачами

Дослідження Microsoft свідчить що чатботи ІІ втрачають ефективність під час тривалого спілкування з людьми

Повернення до класичних RPG і завантажень Тодд Говард розповів яким буде TES 6

Sony посилить монетизацію власників PS5 через зростання вартості пам’яті

Опубліковано перелік пристроїв Xiaomi Poco і Redmi з датами припинення підтримки

Valve визнала гострий дефіцит Steam Deck складніше придбати консоль

Масштабні проблеми роботи соціальної мережі X в Україні

Оголошені найкращі доступні смарт-годинники 2026 року які мають майже всі функції

В інтернеті показали дизайн найдешевшого iPhone 2026 року

OpenAI звинувачує китайську DeepSeek у викраденні технологій для навчання штучного інтелекту

What's Hot

Дослідження Microsoft виявило зниження ефективності ІІ чат-ботів під час тривалої взаємодії з користувачами

Автор

СХОЖІ НОВИНИ