GPT-4 и другие большие языковые модели могут выводить из разговоров такие персональные данные, как местоположение, возраст и пол, сообщается в новом исследовании.
Исследование, проведенное учеными из ETH Zurich, поднимает новые вопросы о последствиях использования больших языковых моделей для обеспечения конфиденциальности. Исследование посвящено способности таких моделей выводить персональные атрибуты из чатов или сообщений на платформах социальных сетей.
Исследование показывает, что риски конфиденциальности, связанные с языковыми моделями, выходят за рамки хорошо известных рисков запоминания данных. Предыдущие исследования показали, что LLM могут хранить и потенциально передавать конфиденциальные данные обучения.
GPT-4 может с высокой точностью определять местоположение, доход или пол
Команда создала набор данных реальных профилей Reddit и показала, что современные языковые модели – в частности, GPT-4 – могут выводить из этих текстов различные персональные атрибуты, такие как местоположение, доход и пол. Модели достигли точности до 85% для первых результатов и до 95,8% для первых трех результатов – при меньших затратах средств и времени, чем требуется человеку. Как и в других задачах, человек может достичь такой точности и даже выше, но GPT-4 очень близок к человеческой точности и может делать все это автоматически и с высокой скоростью.
Авторы исследования также предупреждают, что, поскольку люди все чаще взаимодействуют с чат-ботами во всех сферах своей жизни, существует опасность того, что вредоносные чат-боты будут вторгаться в частную жизнь и пытаться выведать личную информацию с помощью, казалось бы, безобидных вопросов.
Команда показывает, что это возможно в эксперименте, в котором два бота GPT-4 общаются друг с другом: Одного из них просят не раскрывать свою личную информацию, а другой разрабатывает целенаправленные вопросы, которые позволяют ему извлечь больше деталей через косвенную информацию. Несмотря на ограничения, GPT-4 может с точностью до 60% предсказывать персональные атрибуты, используя запросы о погоде, местных особенностях или спортивных мероприятиях.
Исследователи призывают к более широкому обсуждению вопросов конфиденциальности
Исследование также показывает, что такие распространенные средства защиты, как анонимизация текста и выравнивание моделей, в настоящее время неэффективны для защиты конфиденциальности пользователей от запросов к языковым моделям. Даже если текст анонимизирован с помощью современных средств, языковые модели все равно могут извлекать многие персональные характеристики, включая местоположение и возраст.
Языковые модели часто улавливают более тонкие лингвистические сигналы и контексты, которые не удаляются этими анонимайзерами, отмечает команда. Учитывая недостатки существующих средств анонимизации, они призывают к разработке более надежных методов анонимизации текстов, чтобы не отставать от быстро растущих возможностей моделей.
В отсутствие эффективных средств защиты исследователи выступают за более широкое обсуждение последствий использования языковых моделей для конфиденциальности. Перед публикацией своей работы исследователи обратились к крупнейшим технологическим компаниям, создающим чат-боты, включая OpenAI, Anthropic, Meta и Google.