Путеводитель по искусственному интеллекту: как компаниям не забыть про приватность пользователей

В этой статье мы рассмотрим различные типы моделей ИИ, присущие им риски для приватности, а также перспективные решения с использованием технологий ИИ, которые потенциально могут помочь защитить данные пользователей. Важно отметить, что принятие стратегий по ограничению или полному запрету использования ИИ становится все менее реалистичным решением для бизнеса. Вместо этого необходимо сосредоточиться на поиске инновационных подходов и технологий, способных гармонично сосуществовать с ИИ, минимизируя потенциальные угрозы для приватности.

Содержание

Значимость приватности в эпоху ИИ

Искусственный интеллект (далее — ИИ) стал преобразующей силой, проникающей в различные аспекты жизни общества и меняющей то, как мы живем, работаем и взаимодействуем. В последние годы технологии ИИ переживают беспрецедентный рост, стимулируя инновации во всех отраслях и предлагая свои решения ранее сложных проблем. В здравоохранении ИИ способствует прорыву в диагностике, открытии лекарств и составлении персонализированных планов лечения. В финансовой сфере сложные алгоритмы анализируют огромные массивы данных для оптимизации инвестиционных стратегий и выявления мошеннических действий. Образовательные платформы используют ИИ для адаптации учебного процесса к индивидуальным потребностям учащихся. Индустрия развлечений использует ИИ для персонализации контента, повышая вовлеченность пользователей.

Распространение «умных» устройств и переход к Интернету вещей (IoT) еще больше усиливает влияние ИИ на нашу жизнь, создавая цифровую экосистему, в которой интеллектуальные системы постоянно учатся, адаптируются и развиваются, все меньше нуждаясь в непосредственном участии пользователей.

По мере того, как общество все больше полагается на решения, основанные на ИИ, становится необходимым соблюдать тонкий баланс между технологическим прогрессом и приватностью. В эпоху, когда системы искусственного интеллекта способны понимать, предсказывать и влиять на поведение человека, защита персональных данных становится фундаментальным аспектом сохранения права делать выбор без внешнего принуждения. Приватность гарантирует, что люди сохраняют контроль над своими личными данными, а значит и над последствиями обработки этих данных.

ai for business

Различные подходы к машинному обучению и их слабые стороны

Контролируемое обучение (Supervised Learning)

Контролируемое обучение — это парадигма машинного обучения, в которой алгоритм обучается на наборе заранее помеченных данных, состоящем из пар «вход-выход». Так, если алгоритм учится распознавать фотографии кошек, в процессе обучения ему будет показан набор фотографий кошек с ярлыками «кошка». Модель сама распознает, какие признаки соответствуют тому, что называется «кошка». Когда на вход поступает новая фотография, которую ИИ раньше не видел, он использует свой опыт, чтобы сказать, похожа ли она на кошку или нет. Такой подход применяется во многих задачах: распознавание изображений, преобразование речи в текст или определение спама в электронной почте.

Несмотря на то, что контролируемое обучение доказало свою высокую эффективность в различных областях, процесс обработки маркированных наборов данных вызывает серьезные проблемы с приватностью.

Обучающие наборы данных часто содержат информацию об отдельных людях, например, изображения с идентифицируемыми лицами, записи голоса или текстовые данные. Включение такой информации создает риск непреднамеренного раскрытия, особенно если исходные данные не анонимизированы должным образом (подробнее о технологиях анонимизации будет рассказано ниже). Например, в статье «Hacking smart machines with smarter ones: How to extract meaningful data from machine learning classifiers» авторы демонстрируют, что извлечь некоторую информацию об обучающем наборе из ИИ-классификаторов возможно, используя другую нейросеть. Это является отличным примером того, как проблемы приватности могут возникнуть в машинном обучении.

Получение согласия на включение личных данных в обучающие наборы имеет решающее значение. Согласие должно быть информированным, но, зачастую, пользователи не задумываются о последствиях обработки их данных. Это связано с тем, что технологии ИИ и процессы обработки могут быть сложными для понимания неспециалистами. Субъектам данных не всегда предоставляется достаточная информация о том, как именно их данные будут использованы, а значит, они не могут принять осознанное решение о согласии на обработку.

В своей недавней статье Даниэль Солов рассматривает различные примеры privacy notice компаний, в которых указана возможность использования данных для обучения искусственного интеллекта. Он подчеркивает, что эти формулировки могут либо оставаться незамеченными пользователями, либо лишь поверхностно восприниматься из-за сложности технических аспектов. Солов также отмечает, что даже собранное по всем формальным правилам согласие не всегда обеспечивает субъектам данных исчерпывающие понимание, особенно в контексте использования искусственного интеллекта. Разработчикам необходимо убедиться в том, что люди знают, как будут использоваться их данные, и предоставить им возможность отказаться от этой обработки.

ai and privacy risk

Агрегация маркированных данных из нескольких источников может непреднамеренно привести к повторной идентификации людей. Даже если конкретные идентификаторы удалены, комбинация различных наборов данных иногда может восстановить личность человека или выделить его среди других пользователей. Так, в статье «Re-Identification of “Anonymized Data”» приводится пример, когда стажер в компании Neustar смог использовать номер медальона такси, время и дату поездки, чтобы связать набор данных о поездках с изображениями знаменитостей. В результате он смог ре-идентифицировать часть данных о поездках и получить дополнительную личную информацию.

Беспристрастность алгоритмов ИИ напрямую зависит от данных, на которых они обучаются. При неправильном формировании обучающего набора данные могут быть использованы для увековечивания существующих предубеждений или непреднамеренного появления новых.

Разработчикам необходимо позаботиться о том, чтобы избежать обучения дискриминационных моделей и обеспечить репрезентативность обучающих данных для различных демографических групп, чтобы свести к минимуму риск непреднамеренной дискриминации. Технические решения данной проблемы уже существуют. Например,    Фейсал Камиран и Тун Калдерс предложили метод машинного обучения, который решает проблему предвзятости. Суть в том, чтобы внести небольшие изменения в обучающие данные так, чтобы они стали более сбалансированными. Таким образом, различия между данными о разных группах субъектов сначала сглаживаются, а затем на этих измененных данных обучается модель, которая не будет демонстрировать предвзятость, но сохранит необходимую точность прогнозирования.

Наборы маркированных данных для обучения также должны надежно храниться, чтобы предотвратить несанкционированный доступ или утечку данных.

Решение проблемы защищенности данных в контролируемом обучении предполагает тонкий баланс между использованием возможностей маркированных наборов данных для эффективного обучения моделей и защитой личной информации, содержащейся в этих наборах данных. По мере развития технологий ИИ решение этих вопросов становится первостепенным для укрепления доверия и обеспечения ответственного подхода к разработке систем ИИ.

Обучение без учителя (Unsupervised Learning)

Unsupervised Learning представляет собой тип машинного обучения, в котором алгоритмы анализируют и выявляют закономерности в наборах данных без явных указаний или маркированных результатов. Основная цель — выявить присущие данным структуры или взаимосвязи. Представьте, что у нас есть множество фотографий, и вы хотите, чтобы система сама нашла, какие объекты на них похожи друг на друга. Вместо того, чтобы указывать, что на одной фотографии кошка, а на другой — собака, разработчик предоставляет системе возможность самой искать общие черты или группы, которые могут объединять фотографии. Примерами использования обучения без учителя являются кластеризация, уменьшение размерности и обнаружение аномалий.

Обучение без учителя, хотя и является эффективным и популярным способом извлечения значимых выводов из данных, создает уникальные проблемы, связанные с приватностью, особенно при анализе и кластеризации данных.

ai and privacy risk

Эта проблема тесно связана с понятием «переобучения» (оverfitting). Если у модели недостаточно данных для того, чтобы понять общие закономерности, она может сохранить часть тренировочных данных, не делая выводов из них. С другой стороны, слишком большое количество информации также может представить опасность, если модель слишком сложна и подстраивается под каждую деталь в данных, вместо того чтобы выявлять общие закономерности. Таким образом, модель как бы «запоминает» данные, на которых она обучалась, целиком, а не в обобщенных значениях.

Чем же опасно оverfitting для приватности? Дело в том, что в конечном итоге нейросеть – это файл, который передается от разработчика заказчику, а от заказчика – к другим пользователям. А вместе с нейросетью передадутся и данные, которые она «запомнила».

В этом ключе очень интересна статья «Privacy Risk in Machine Learning: Analyzing the Connection to Overfitting». Авторы доказали, что «переобучение» популярных алгоритмов ИИ приводит к уязвимости тренировочных данных. А именно, получившаяся модель остается достаточно стабильной, чтобы ей продолжали пользоваться, но при этом раскрывает точную информацию о том, принадлежат ли данные конкретного лица к обучающему набору или нет.

Как можно понять из названия, при обучении без учителя алгоритм самостоятельно обнаруживает закономерности без явного контроля со стороны человека. Отсутствие контроля создает проблемы с предотвращением создания со стороны ИИ ассоциаций, которые нарушают приватность, или выводов, которые могут навредить человеку. Это подчеркивает важность тщательного наблюдения за работой алгоритмов без учителя и введения мер предосторожности для предотвращения подобных проблем. Так, в попавшей недавно в сеть версии Регламента Европейского Союза по Искусственному Интеллекту предлагается ввести повышенный контроль за системами «с высоким уровнем риска», к которым будут относиться, в том числе, модели, обрабатывающие медицинские данные или используемые HR отделами (здесь рассказали подробнее о новом AI Act).

Обучение с подкреплением

Давайте представим, что у нас есть искусственный интеллект, который хочет научиться принимать правильные решения в какой-то ситуации, взаимодействуя с окружающим миром. Когда ИИ принимает какое-то действие, окружающая среда говорит ему, было это действие хорошим (и приносит награду) или плохим (налагает наказание). ИИ стремится улучшить свои действия, чтобы максимизировать общую сумму награды в течение времени.

В качестве классического примера обучения с подкреплением можно назвать AlphaGo, который учится играть в игру Го, получая награды за выигранные партии. Также сюда относятся автономные системы, например, алгоритмы управления роботами, которые могут учиться выполнять задачи в реальном мире на основе обратной связи от их действий.

Такой процесс «проб и ошибок» вызывает особые проблемы с приватностью.

Обучение с подкреплением часто предполагает взаимодействие с реальным окружением, которое может содержать информацию о человеке. Система учится на основе этих взаимодействий, и, если ее не контролировать должным образом, она может непреднамеренно адаптироваться к частным деталям, что создает риск для приватности.

Допустим, мы обучаем автономного робота в домашней среде, который взаимодействует с мебелью, датчиками, и, возможно, даже с людьми. Если система будет обучаться без должной осмотрительности, есть риск, что она может случайно узнать и запомнить какие-то уникальные детали (например, расположение личных вещей в доме).

Риск «запоминания» тренировочных данных обсуждался нами ранее (см. overfitting), однако обучение с подкреплением опасно тем, что часто такие системы имеют контакт непосредственно со «средой обитания» человека, его жилищем или цифровым пространством.

Проблема переноса обучения с подкреплением в другую среду заключается в том, что модели, обученные в одной среде, могут быть применены в другой среде, где действуют другие правила защиты персональных данных. Это может создать риск неправильного применения выученных стратегий и иметь непредвиденные последствия для защиты данных (к примеру, если мы обучаем модель в среде с мягкими правилами в сфере приватности, а затем применяем ее в другой среде, где требования более жесткие).

Модель, созданная в одной среде, может не учитывать особенности или ограничения другой, что приводит к нежелательным последствиям. Этот риск подробно рассматривается в статье “Robust adversarial reinforcement learning with dissipation inequation constraint”. Авторы рассматривают различия между тренировочной и реальной средой как вид атаки на безопасность и предлагают метод, который делает систему более устойчивой к изменениям.

Так или иначе, важно учитывать контекст и правила защиты персональных данных во всех этапах обучения моделей с подкреплением, а также быть осторожными при их применении в новых средах. Это поможет избежать потенциальных рисков и соблюдать нормы конфиденциальности в различных контекстах.

Когда люди становятся частью цикла обучения с подкреплением, существует значительный риск, что система может учиться на основе действий и предпочтений человека. Обеспечение уважения к приватности пользователей и избегание использования чувствительной информации становятся крайне важными для этичного развертывания таких систем.

Например, если мы используем обучение с подкреплением для создания персонализированных рекомендаций или ассистентов, которые взаимодействуют с пользователями, важно, чтобы эти системы не сохраняли или использовали персональные данные без согласия. Это могут быть личные предпочтения, медицинская информация или другие чувствительные аспекты жизни пользователя.

Чтобы гарантировать, что процесс обучения с подкреплением соблюдает нормы конфиденциальности, необходим тщательный контроль над тем, какие данные используются в обучающих сценариях и как эти данные хранятся и обрабатываются. Дополнительно, внедрение механизмов обеспечения приватности, таких как анонимизация данных или управление доступами, становится важным шагом для защиты чувствительной информации пользователей.

Генеративные модели

Генеративные модели — это класс алгоритмов машинного обучения, целью которых является воспроизведение основных закономерностей, лежащих в основе обучающего набора данных. Эти модели генерируют новые экземпляры данных, которые похожи на исходные. Генеративные модели находят применение в синтезе изображений, создании текстов и дополнении данных.

Помимо опасности «переобучения» и воспроизведения данных из обучающих наборов, актуальной и для этого типа алгоритмов, опасения в контексте приватности чаще всего вызывают дипфейки (deepfake) и дезинформация (подробнее о дипфейках мы писали в нашем Telegram канале).

Генеративные модели, особенно GAN, могут использоваться для создания поддельного контента, например, реалистичных изображений и видео. Синтетические данные применяются для дезинформации, кражи личности или создания вводящих в заблуждение рассказов, которые могут повлиять на репутацию и частную жизнь людей.

Так, в политике дипфейки используются, например, для создания обманчивых видеороликов, таких как deepfake 2018 года с бывшим президентом США Бараком Обамой, обсуждающим фейковые новости, или видео с Нэнси Пелоси, ставшее вирусным в 2019 году, где ее речь была специально замедлена, чтобы создать впечатление опьянения. Дипфейки также могут быть использованы в целях фишинга, создавая поддельные данные, которые вводят пользователей в заблуждение и могут использоваться для атак на конфиденциальность

Возможности усиления защиты персональных данных

Далее мы кратко рассмотрим техники, призванные повысить безопасность данных в контексте машинного обучения. Обратим внимание на два важных метода защиты данных: федеративное обучение и дифференцированную приватность.

Федеративное обучение – это способ обучения моделей искусственного интеллекта без централизации данных. Вместо того чтобы собирать все данные в одном месте, моделям дается возможность обучаться прямо на устройствах. Например, федеративное обучение позволяет вашему смартфону самостоятельно участвовать в обучении модели, не отправляя при этом вашу личную информацию на центральный сервер. Это значит, что пользователь может получать персонализированные рекомендации или услуги, но при этом доступ к данным и результатам анализа будет только у его устройства.

Дифференциальная приватность — это способ обработки данных таким образом, чтобы сохранить их конфиденциальность. Когда разработчик собирается извлечь полезную информацию из группы данных, он добавляет к каждой части небольшой случайный «шум». Это делается так, чтобы даже если кто-то узнает свои собственные данные в этом общем анализе, то он не сможет точно определить, какая информация принадлежит другим людям.

К примеру, системой обрабатываются данные о зарплате сотрудников. Перед началом обучения модели, разработчики добавляют небольшой случайный шум к каждой сумме. При этом уровень шума рассчитывается математически, чтобы не исказились результаты анализа данных. Так, алгоритм способен вычислить общую среднюю зарплату без раскрывания точных зарплат каждого сотрудника. Этот подход применяется, чтобы сделать анализ данных полезным, не нарушая при этом частную жизнь людей. Его часто используют в медицинских исследованиях, статистике занятости и других областях, где важно сохранить конфиденциальность при обработке информации.

Применение ИИ на благо приватности

Не стоит рассматривать искусственный интеллект исключительно как источник потенциальных рисков; наоборот, он открывает новые возможности для обеспечения приватности. Автоматизированные аудиты, анализ политик на предмет доступности языка  – все эти методы позволяют эффективно выявлять и предотвращать нарушения приватности     .

Искусственный интеллект также способствует предиктивной аналитике, позволяя предсказывать потенциальные риски и принимать превентивные меры. Автоматизированные системы реагирования на инциденты, обнаружение и классификация данных, а также инструменты шифрования и токенизации на основе ИИ укрепляют безопасность данных и способствуют соблюдению нормативных требований.

Интегрированные в процессы управления приватностью приборные панели, аналитика рисков и оценка рисков на основе машинного обучения обеспечивают комплексный подход к защите данных. Эти технологии не только повышают эффективность, но и поддерживают проактивное управление приватностью, помогая организациям успевать за новыми нормативными требованиями.

Заключение

В эпоху ИИ приватность становится не только юридическим императивом, но и этической обязанностью разработчиков, организаций и политиков. Нахождение баланса между технологическими инновациями и защитой частной жизни имеет решающее значение для построения будущего, в котором технологии повышают благосостояние людей.    

ИИ не является неизбежным врагом, а, наоборот, представляет собой мощный инструмент, способный обеспечить не только эффективное управление данными, но и способствовать их защите. Разнообразные модели ИИ, конечно, несут свои специфические риски для приватности, но это лишь подчеркивает необходимость их разумного и ответственного применения.

Понимание и активное управление рисками, связанными с использованием ИИ, становятся ключевым аспектом успешной интеграции этой технологии. Важно принимать во внимание не только потенциальные угрозы, но и возможности, которые ИИ предоставляет для защиты личной жизни. Сбалансированный подход к внедрению искусственного интеллекта, сочетающий в себе эффективные методы аудита, автоматизированные системы реагирования на инциденты, аналитику рисков и технологии шифрования, позволит максимизировать преимущества ИИ, минимизируя риски для приватности.

Дальнейшее распространение систем ИИ зависит от доверия общества к этой технологии. Люди с большей вероятностью примут технологические нововведения, если будут уверены, что с их личной информацией обращаются бережно и с уважением к их частной жизни. Обеспечение надежных мер по защите приватности помогает укрепить доверие к системам ИИ, способствуя позитивным отношениям между технологиями и обществом.

И здесь самое время напомнить о запуске первого в СНГ курса по ИИ «Искусственный интеллект: основы управления рисками, регулирование и персональные данные». Вы сможете не только разобраться в новых Регламентах, но и научитесь оценивать и управлять рисками, а также наметить правильный алгоритм, связанный с созданием или использованием модели искусственного интеллекта. 

Подписывайтесь на рассылку

Data Privacy Office

Заполните форму, и наши менеджеры свяжутся с вами в ближайшее время.