Зображення ілюстративне © depositphotos/issaro.now2 Розробка допоможе спілкуватись пацієнтам з інсультом та паралічем і полегшить користування біонічними протезами.
Австралійські дослідники розробили технологію штучного інтелекту DeWave, яка може перетворювати беззвучні думки у текст. Користувач має лише вдягнули щільно прилеглу «шапочку», повідомляє Science Alert.
Науковці протестували процес читання думок на понад 20 піддослідних. Учасники читали мовчки, вдягнувши «шапочку», яка записувала їхні мозкові хвилі за допомогою електроенцефалограми (ЕЕГ) і розшифровувала їх у текст.
Тестування технології DeWave University of Technology Sydney/CC BY-NC-SA
«Це дослідження — це новаторська спроба перекладу необроблених хвиль ЕЕГ безпосередньо в мову, ця подія знаменує собою значний прорив у цій галузі», — зазначив комп’ютерний науковець з Технологічного університету Сіднея Чін-Тенг Лін.
Хоча DeWave досягнув лише близько 40% точності, це на 3% краще, ніж попередній стандарт перекладу думок із записів ЕЕГ. Мета дослідників — підвищити точність до 90%. Такий показник відповідає традиційним методам перекладу мови та програмному забезпеченню для розпізнавання мовлення.
Недоліки інших методів
Щоб застосувати інші технології перекладу сигналів мозку в слова потрібно провести операції з імплантації електродів у тіло людини або мати громіздкі та дорогі МРТ-апарати. Ці методи непрактичні для щоденного використання.
До того ж у більшості випадків ці розробки мають постійно відстежувати рух очей, щоб перетворити сигнали мозку в прочитані людиною слова. Коли очі людини бігають від одного слова до іншого, її мозок робить невелику перерву між обробкою кожного слова. Без відстеження очей, яке вказує на відповідне слово-ціль, перекласти необроблену ЕЕГ-хвилю в слова набагато складніше. До того ж мозкові хвилі різних людей відображають перерви між словами по-різному, що ускладнює інтерпретацію думок штучним інтелектом.
У чому перевага DeWave
Після тривалого навчання кодер DeWave перетворює хвилі ЕЕГ на код, який потім можна зіставити з конкретними словами на основі того, наскільки вони близькі до записів у «книзі кодів» пристрою.
«Це перша програма, яка використовує методи дискретного кодування в процесі перекладу з мозку в текст, впроваджуючи інноваційний підхід до нейронного декодування. Інтеграція з великими мовними моделями відкриває нові горизонти в нейронауках і ШІ», — пояснює Лін.
Лін і його команда використовували навчені мовні моделі, які включали комбінацію системи BERT з GPT. Вони протестували їх на наборах даних, які вчені отримали, відстежуючи рух очей і активність мозку під час читання тексту піддослідними. Це допомогло системі навчитися співвідносити хвильові патерни мозку зі словами, після чого DeWave навчали далі за допомогою великої мовної моделі з відкритим вихідним кодом, яка, по суті, складає речення зі слів.
Найкраще DeWave впорався з розшифровкою дієслів. Іменники перекладалися, як правило, парами слів, які означали приблизно те саме, але не були точним перекладом. Наприклад, замість «автор» пристрій декодував слово «чоловік». Як зазначає один з авторів дослідження Ікун Дуань, така помилка відбувається через те, що семантично схожі слова можуть викликати схожі хвильові патерни в мозку. «Попри труднощі, наша модель дає значущі результати, поєднуючи ключові слова і формуючи схожі структури речень», — додав він.
За словами вчених, їхнє дослідження є більш надійним, ніж попередні завдяки відносно великому розміру вибірки протестованих людей. Науковці врахували, що розподіл хвиль ЕЕГ у різних людей сильно варіюється.
Попереду ще багато роботи. Наразі сигнал DeWave доволі зашумлений через те, що ЕЕГ-сигнали надходять через «шапочку», а не імплантовані у мозок електроди. «Переклад думок безпосередньо з мозку є цінним, але складним завданням, яке вимагає значних постійних зусиль», — зазначили розробники.
Раніше вчені вперше реконструювали зображення, які бачить людина, на основі активності мозку. Розробка кількісно оцінює активність мозку і передає дані генеративному ШІ. Нейромережа своєю чергою малює зображення, застосовуючи методи прогнозування, щоб відтворити складні об’єкти.