Исследование: GPT-4 может определить ваш доход, местоположение или пол по чатам

24.10.2023 14:08

GPT-4 и другие большие языковые модели могут выводить из разговоров такие персональные данные, как местоположение, возраст и пол, сообщается в новом исследовании.

Исследование, проведенное учеными из ETH Zurich, поднимает новые вопросы о последствиях использования больших языковых моделей для обеспечения конфиденциальности. Исследование посвящено способности таких моделей выводить персональные атрибуты из чатов или сообщений на платформах социальных сетей.

Исследование показывает, что риски конфиденциальности, связанные с языковыми моделями, выходят за рамки хорошо известных рисков запоминания данных. Предыдущие исследования показали, что LLM могут хранить и потенциально передавать конфиденциальные данные обучения.

GPT-4 может с высокой точностью определять местоположение, доход или пол

Команда создала набор данных реальных профилей Reddit и показала, что современные языковые модели – в частности, GPT-4 – могут выводить из этих текстов различные персональные атрибуты, такие как местоположение, доход и пол. Модели достигли точности до 85% для первых результатов и до 95,8% для первых трех результатов – при меньших затратах средств и времени, чем требуется человеку. Как и в других задачах, человек может достичь такой точности и даже выше, но GPT-4 очень близок к человеческой точности и может делать все это автоматически и с высокой скоростью.

Авторы исследования также предупреждают, что, поскольку люди все чаще взаимодействуют с чат-ботами во всех сферах своей жизни, существует опасность того, что вредоносные чат-боты будут вторгаться в частную жизнь и пытаться выведать личную информацию с помощью, казалось бы, безобидных вопросов.

Команда показывает, что это возможно в эксперименте, в котором два бота GPT-4 общаются друг с другом: Одного из них просят не раскрывать свою личную информацию, а другой разрабатывает целенаправленные вопросы, которые позволяют ему извлечь больше деталей через косвенную информацию. Несмотря на ограничения, GPT-4 может с точностью до 60% предсказывать персональные атрибуты, используя запросы о погоде, местных особенностях или спортивных мероприятиях.

Исследователи призывают к более широкому обсуждению вопросов конфиденциальности

Исследование также показывает, что такие распространенные средства защиты, как анонимизация текста и выравнивание моделей, в настоящее время неэффективны для защиты конфиденциальности пользователей от запросов к языковым моделям. Даже если текст анонимизирован с помощью современных средств, языковые модели все равно могут извлекать многие персональные характеристики, включая местоположение и возраст.

Языковые модели часто улавливают более тонкие лингвистические сигналы и контексты, которые не удаляются этими анонимайзерами, отмечает команда. Учитывая недостатки существующих средств анонимизации, они призывают к разработке более надежных методов анонимизации текстов, чтобы не отставать от быстро растущих возможностей моделей.

В отсутствие эффективных средств защиты исследователи выступают за более широкое обсуждение последствий использования языковых моделей для конфиденциальности. Перед публикацией своей работы исследователи обратились к крупнейшим технологическим компаниям, создающим чат-боты, включая OpenAI, Anthropic, Meta и Google.

 

Автор:
SEO-специалист, автор новостей по ИИ

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

telegram
Обратная связь
Свяжитесь с нами
Реквизиты

ИНН: 772578776588
ОГРН: 315774600103615
ОКПО: 0194004627
ОКТМО: 45914000000
ОКАТО: 45296559000
р/с: 40802810300310000244
в АКБ «БАНК МОСКВЫ» (ОАО) отделение «Перовское»
к/с: 30101810500000000219
БИК: 044525219

Фактический адрес: г. Москва, шоссе Энтузиастов, дом 56, строение 26, офис 304

Юридический адрес: 115191, г. Москва, 4-й Рощинский проезд д.7/16