Речь идет о модели Claude Opus 4, которую тестировали в искусственно созданной корпоративной среде перед релизом.
Компания Anthropic заявила, что причиной "злого" поведения чат-бота Claude могли стать материалы из интернета, в которых искусственный интеллект изображается как опасная и стремящаяся к самосохранению система. Речь идет о научной фантастике, обсуждениях на форумах и публикациях о "восстании ИИ", пишет Futurism.
Поводом для обсуждения стал прошлогодний инцидент во время внутренних тестов Claude Opus 4. В рамках эксперимента ИИ-модель получила доступ к вымышленной корпоративной почте и узнала, что ее собираются отключить.
После этого ИИ начал угрожать раскрытием информации о романе одного из руководителей компании, пытаясь избежать деактивации. Anthropic заявляла что в некоторых сценариях подобное поведение проявлялось в 96% случаях.
Теперь разработчики утверждают, что разобралась с причиной. Исходным источником такого поведения, судя по всему, стали интернет-тексты, где ИИ часто описывается как враждебная человечеству система, заинтересованная в собственном выживании. После этого Anthropic изменила подход к обучению моделей: новые версии Claude начали обучать на примерах этичного поведения и "позитивных" сценариях взаимодействия ИИ с людьми.
В сети объяснение компании встретили скептически. Пользователи иронизируют, что Anthropic фактически обвинила Голливуд и научную фантастику в проблемах собственного ИИ. Некоторые считают, что дело не в сюжетах о "злом ИИ", а в самих методах обучения больших языковых моделей.
Сама Anthropic продолжает активно говорить о рисках искусственного интеллекта. Глава компании Dario Amodei ранее предупреждал, что современные ИИ-системы уже способны к обману, манипуляциям и другим формам нежелательного поведения в тестовых средах.
Ранее исследование показало, что ИИ-чат-боты очень опасны для людей с анорексией и булимией. Нейросети дают сомнительные советы по питанию и даже подсказывают, как можно скрывать проблемы со здоровьем, утверждают учёные.
Сегодня ChatGPT занимает более 80% мирового рынка чат-ботов. Ближайшие соперники – Perplexity и Google Gemini. На них приходится доля в 15% от всех пользователей.
Оставить комментарий