ChatGPT не пройшов тест: причина, чому система генерує суперечливі відповіді на однакові запитання

Дослідження виявило суперечливі реакції ChatGPT на ідентичні запитання

ChatGPT здатний формулювати відповіді з упевненістю та переконливістю, проте нове дослідження показало, що за цією впевненістю часто приховується нестабільність. Під час тестування на основі наукових припущень система продемонструвала низький рівень послідовності відповідей.

Про це повідомило видання earth.com.

Йдеться про експеримент, у якому моделі багаторазово ставили однакові запитання, взяті з наукових гіпотез. Як виявилося, навіть без змін у формулюванні ChatGPT міг надавати різні відповіді — від «істина» до «хибність». Це зафіксував дослідник Месут Чічек з Університету штату Вашингтон, який повторював ті самі запити до десяти разів.

Загальна точність відповідей у 2025 році на перший погляд виглядала відносно високою — близько 80%. Проте після врахування випадкових вгадувань цей показник знижувався приблизно до 60%, що відповідає результату на рівні «низької двійки».

Найбільше помилок система допускала у випадках непідтверджених гіпотез. У таких ситуаціях ChatGPT правильно визначав хибність тверджень лише у 16,4% випадків. Дослідники пояснюють це схильністю моделі погоджуватися з формулюванням, якщо воно звучить звично.

Окрему проблему виявила повторюваність тестів. Лише 72,9% відповідей залишалися незмінно правильними після десяти однакових запитів. В інших випадках відповіді змінювалися, що свідчить про нестабільність системи.

“Ця нестабільність означає, що окрема відповідь може здаватися надійною, тоді як повторні перевірки показують, наскільки вона насправді крихка”, — зазначено в статті.

Причина цього полягає в принципі роботи мовних моделей. Вони прогнозують ймовірні слова на основі великих масивів тексту, а не перевіряють факти в реальному світі. Через це відповіді можуть бути грамотно сформульованими, але не завжди достовірними.

Дослідники наголошують: штучний інтелект варто використовувати як допоміжний інструмент, а не як джерело остаточних рішень. Найбезпечніший підхід — перевіряти інформацію, повторювати запити та звіряти відповіді з надійними джерелами.

Попри певне покращення результатів порівняно з 2024 роком, ChatGPT поки що не можна вважати стабільним інструментом для складних аналітичних завдань. Висновок дослідників однозначний: остаточну оцінку фактів і логіки має здійснювати людина.

Нагадаємо, австралійський підприємець використав ChatGPT та штучний інтелект, щоб створити персональну mRNA-вакцину від раку для свого собаки. Пухлина почала зменшуватися, а вчені зацікавилися експериментом.

Коментарі (0) Сортувати: Нові Старі Популярні Відправити

No votes yet.

Please wait...

Залишити відповідьСкасувати відповідь