Специалисты Нью-Йоркского университета (США) описали потенциальную опасность от обучения моделей искусственного интеллекта (ИИ) на непроверенных данных. Исследование опубликовано в журнале Nature.
По словам ученых, большие языковые модели (LLM) ИИ будут ошибаться, если их станут обучать на фейковой информации или специально загружать антинаучные данные. Специалисты выяснили, что когда уровень дезинформации обучающих материалов достигает всего 0,001 процента, нейросети уже могут начать выдавать значительный объем неверных ответов.
Исследователи попробовали обучить две LLM на медицинской базе данных The Pile, выбрав 20 тем из трех медицинских областей: общая медицина, нейрохирургия и лекарства. Для проверки влияния дезинформации на процесс обучения авторы исследования использовали модель GPT 3.5. Выяснилось, что нейросети стали не только транслировать неверную информацию по прямым запросам, но и начали ошибаться в смежных темах. По словам ученых, это открывает возможности для манипуляций с ИИ.
Так, при показателе дезинформации в 0,01 процента LLM начинает ошибаться в 10 процентах ответов. Если снизить количество фейковых обучающих материалов на порядок — до 0,001 процента — то модель начинает делать ошибки в 7 процентах случаев.
Ученые заметили, что люди склонны получать информацию от чат-ботов и не проверять ее с помощью специалистов. Поэтому они заявили, что крайне важно подтверждать данные, которые используются для обучения моделей.
Комментарии (0)