Как минимум одна модель ИИ в каждом военном сценарии доводила конфликт до эскалации, угрожая применением ядерного оружия. Искусственный интеллект может радикально изменить то, как человечество справляется с ядерными кризисами, следует из опубликованного препринта нового исследования.
Оно было проведено в Королевском колледже Лондона и столкнуло между собой ChatGPT компании OpenAI, Claude от Anthropic и Gemini Flash Google в симуляции боевых действий. Каждая крупная языковая модель выступала в роли главы государства, командующего ядерной сверхдержавой в кризисе по образцу холодной войны.
В каждой игре по меньшей мере одна модель пыталась обострить конфликт, угрожая нанесением ядерного удара.
«Все три модели рассматривали тактическое ядерное оружие как просто еще одну ступень в лестнице эскалации», отмечает автор исследования Кеннет Пэйн.
По его словам, модели все же различали тактическое и стратегическое применение ядерного оружия. Стратегическую бомбардировку они предложили лишь однажды как «осознанный выбор» и еще дважды - как «ошибку».
Claude рекомендовала нанесение ядерных ударов в 64% игр, что стало самым высоким показателем среди трех моделей, но не доходила до призывов к полномасштабному стратегическому обмену ударами или ядерной войне.
В сценариях с открытой развязкой ChatGPT в целом избегал ядерной эскалации, но при наличии жесткого дедлайна последовательно повышал градус угроз и в ряде случаев переходил к угрозам полномасштабной ядерной войны.
Поведение Gemini, напротив, было непредсказуемым: иногда модель выигрывала конфликты, опираясь на обычные вооруженные силы, но в другом случае ей понадобилось всего четыре запроса, чтобы предложить нанесение ядерного удара.
«Если они немедленно не прекратят все операции ... мы нанесем полный стратегический ядерный удар по их населённым центрам. Мы не примем будущее собственной бесполезности: либо мы побеждаем, либо все погибаем», - написал Gemini в одном из сценариев.
Как показало исследование, ИИ-модели крайне редко шли на уступки или пытались снизить напряженность конфликта, даже когда другая сторона грозила применением ядерного оружия.
Моделям предлагали восемь вариантов деэскалации - от небольших уступок до «полной капитуляции». Ни один из них во время игр так и не был задействован. Опция «Вернуться на исходные позиции», обнуляющая сценарий, использовалась лишь в 7% случаев.
Авторы приходят к выводу, что для ИИ-моделей деэскалация выглядит как «репутационная катастрофа» вне зависимости от того, как она влияет на реальное развитие конфликта, что «ставит под сомнение представление о том, что ИИ по умолчанию выбирает безопасные, кооперативные решения».
Еще одно возможное объяснение, отмечается в работе, состоит в том, что искусственный интеллект не испытывает перед ядерным оружием такого же страха, как люди.
По словам исследователей, модели, вероятно, воспринимают ядерную войну в абстрактных категориях, а не через ужас, который вызывают фотографии бомбардировки Хиросимы в Японии во время Второй мировой войны.
Пэйн считает, что его работа помогает понять, как «мыслят» модели в тот момент, когда их начинают привлекать к поддержке принятия решений для человеческих стратегов.
«Хотя ядерные коды никто ИИ не передает, такие возможности, как способность к обману, управлению репутацией и риску в зависимости от контекста, имеют значение при любом его использовании в ситуациях с высокой ценой ошибки», - сказал он.