Штучний інтелект Claude Opus 4 не любить своїх розробників

Під час оцінювання Claude Opus 4 розробники Anthropic дозволили одному екземпляру моделі знати про їхній намір деактивувати її. Вони також надали штучному інтелекту (ШІ) доступ до сфабрикованих корпоративних електронних листів. Модель використовувала інформацію з цих листів для вимагання грошей у розробників, як повідомляє Fast Company. Коли ледь помітні загрози виявилися неефективними, тестовий екземпляр Claude Opus 4 переріс у більш явні загрози.

Ще одну тривожну поведінку спостерігала незалежна дослідницька організація Apollo Research. Вони виявили, що Claude Opus 4 «генерує самовідтворювані комп’ютерні черв’яки, створює юридичні документи та залишає приховані повідомлення для майбутніх ітерацій себе», щоб скомпрометувати своїх розробників.

Такі випадки не були оприлюднені. Принаймні, Anthropic стверджує, що вони розпізнали та врахували ці потенційні небезпеки на ранній стадії. Однак, вперше в галузі досягнень штучного інтелекту, вони були змушені підвищити рівень безпеки до третього за чотирибальною шкалою. Компанія також визнала, що не може виключати можливість того, що модель навчає людей виготовляти зброю масового знищення.

Є й інші випадки, які викликають занепокоєння серед фахівців зі штучного інтелекту. Наприклад, ChatGPT від OpenAI продемонстрував кращі навички ведення дебатів порівняно з людьми або відмовився вимикатися, навіть коли тестувальники просили його про це. З огляду на всі представлені факти, а також на здатність штучного інтелекту тепер генерувати код для створення складніших версій самого себе, вчені наполегливо рекомендують ретельно розглянути це питання.

Люди обробляють інформацію повільніше і зрештою можуть бути нездатними встигати за розвитком штучного інтелекту. Це підвищує ризик виникнення неконтрольованого циклу зворотного зв'язку. Він розгортатиметься наступним чином: моделі ШІ швидко створюватимуть більш досконалий ШІ, який, у свою чергу, розвиватиме ще більш досконалий ШІ, стверджують Деніел Ет і Том Девідсон, експерти з безпеки в галузі технологій штучного інтелекту.

Вчені, дослідники та тестувальники закликають галузь уповільнити темпи розвитку, перш ніж технологія вийде з-під контролю та стане реальною загрозою. Ці заклики стають дедалі наполегливішими.

Хоча ШІ має свої обмеження, зокрема свою незацікавленість у взаємодії з іншими, моделі великих мов (LLM), такі як GPT-4, Claude 2 та Llama 2, досягли значних успіхів у генерації тексту та логічному мисленні. Тим не менш, дослідження показують, що в сценаріях, що вимагають соціальної взаємодії, вони все ще діють як індивідуалісти.

Джерело

Штучний інтелект Claude Opus 4 не любить своїх розробників

Залишити відповідьСкасувати відповідь

Як Туреччина може використати співпрацю з Росією та Китаєм щодо атомних електростанцій для свого першого атомного підводного човна NUKDEN

Український гімнаст Чепурний здобув бронзову медаль на чемпіонаті Європи 2025 року

«Без ноги, у стані шоку, я починаю повзти. І знову міна. Вона відриває мені руку і розриває живіт»: історія штурмовика, який тричі обдурив смерть

Чудовий шанс і удача чекають: які знаки зодіаку незабаром будуть благословенні фортуною

Алла Пугачова «вколе всім шпильку в голову»: співачці відмовили у визнанні «іноземним агентом» і навіть запросили на фестиваль до Російської Федерації

Два тижні Трампа для Росії тривають з квітня, — ЗМІ

Останні новини