Исследование показывает влияние демографических факторов на обучение искусственного интеллекта

17.08.2023 18:46

Исследование, проведенное совместно компаниями Prolific, Potato и Мичиганским университетом, пролило свет на значительное влияние демографических характеристик аннотаторов на разработку и обучение моделей искусственного интеллекта.

В исследовании изучалось влияние возраста, расы и образования на данные для обучения моделей ИИ, что свидетельствует о потенциальной опасности укоренения предвзятости в системах ИИ.

“Такие системы, как ChatGPT, все чаще используются людьми для решения повседневных задач”, — поясняет доцент Дэвид Юргенс из Школы информации Мичиганского университета.

“Но чьи ценности мы прививаем обучаемой модели? Если мы продолжаем брать репрезентативную выборку без учета различий, мы продолжаем маргинализировать определенные группы людей”.

Системы машинного обучения и искусственного интеллекта все чаще полагаются на человеческую аннотацию для эффективного обучения своих моделей. Этот процесс, часто называемый “человеческим контуром” (Human-in-the-loop) или Reinforcement Learning from Human Feedback (RLHF), предполагает, что люди просматривают и классифицируют результаты работы языковых моделей для повышения их эффективности.

Одним из наиболее ярких результатов исследования является влияние демографических характеристик на маркировку оскорбительности.

Исследование показало, что представители разных расовых групп по-разному воспринимают оскорбительность комментариев в интернете. Например, чернокожие участники оценивали комментарии как более оскорбительные по сравнению с другими расовыми группами. Возраст также сыграл свою роль: участники в возрасте 60 лет и старше чаще оценивали комментарии как оскорбительные, чем более молодые участники.

В ходе исследования было проанализировано 45000 аннотаций, полученных от 1484 аннотаторов, и рассмотрен широкий спектр задач, включая определение оскорбительности, ответы на вопросы и вежливость. Выяснилось, что демографические факторы продолжают оказывать влияние даже на такие объективные задачи, как ответы на вопросы. Примечательно, что на точность ответов на вопросы влияют такие факторы, как раса и возраст, что отражает различия в уровне образования и возможностях.

Вежливость, являющаяся важным фактором межличностного общения, также подвержена влиянию демографических факторов.

Женщины, как правило, оценивали сообщения как менее вежливые, чем мужчины, а участники старшего возраста чаще ставили более высокие оценки вежливости. Кроме того, участники с более высоким уровнем образования часто давали более низкие оценки вежливости, а различия наблюдались между расовыми группами и участниками азиатского происхождения.

Фелим Брэдли, генеральный директор и соучредитель компании Prolific, сказал:

Искусственный интеллект затронет все сферы жизни общества, и существует реальная опасность того, что в эти системы будут заложены существующие предубеждения.

Это исследование ясно показывает: важно, кто аннотирует ваши данные.

Каждый, кто создает и обучает системы искусственного интеллекта, должен быть уверен в том, что используемые им люди репрезентативны по возрасту, полу и расе, иначе предвзятость просто породит еще большую предвзятость.

Поскольку системы искусственного интеллекта все больше интегрируются в повседневные задачи, исследование подчеркивает необходимость устранения предубеждений на ранних этапах разработки моделей, чтобы избежать усугубления существующих предубеждений и токсичности.

С полной копией статьи можно ознакомиться здесь (PDF)

telegram
Обратная связь
Свяжитесь с нами
Реквизиты

ИНН: 772578776588
ОГРН: 315774600103615
ОКПО: 0194004627
ОКТМО: 45914000000
ОКАТО: 45296559000
р/с: 40802810300310000244
в АКБ «БАНК МОСКВЫ» (ОАО) отделение «Перовское»
к/с: 30101810500000000219
БИК: 044525219

Фактический адрес: г. Москва, шоссе Энтузиастов, дом 56, строение 26, офис 304

Юридический адрес: 115191, г. Москва, 4-й Рощинский проезд д.7/16