Консультант
GDPR DPP, GDPR DPM, DPT, CIPP/E
Понимание инверсионных атак на модели искусственного интеллекта: Последствия для защиты данных
- 4 апреля, 2024
- AI, Защита данных, Обработка данных
Поскольку распространенность ИИ продолжает расти, понимание тонкостей инверсионных атак и их последствий для приватности приобретает первостепенное значение. Эта статья посвящена феномену инверсионных атак, изучению их механизмов, реальных примеров и тех серьезных проблем, которые они создают для защиты приватности в условиях ИИ. Кроме того, в статье рассматриваются юридические аспекты, которые затрагивают новое понимание моделей ИИ в контексте персональных данных.
Содержание
Введение
В эпоху стремительного технологического прогресса искусственный интеллект (ИИ) стал преобразующей силой, совершив революцию в различных аспектах нашей жизни — от здравоохранения до финансов, от транспорта до развлечений. Благодаря своей способности обрабатывать огромные объемы данных и извлекать значимые выводы, ИИ открывает широкие перспективы для инноваций и повышения эффективности во всех отраслях. Однако среди этого технологического чуда скрывается проблема – угрозы частной жизни.
В данной статье мы затронем лишь одну из возможных угроз — инверсионные атаки, которые представляют значительный риск для приватности и безопасности данных. Эти атаки используют уязвимости в моделях ИИ, чтобы вывести информацию о людях без их согласия или ведома.
Подкаст "Про Приватность"
Открытая площадка, где прайваси-эксперты обсуждают актуальные вопросы из сферы приватности.
Яндекс.Музыка | Spotify | Google Podcasts | Castbox | Mave
Что такое инверсионные атаки?
Для начала давайте разберемся, как устроена нейросеть. Она состоит из множества «нейронов» — подобно мозгу — которые объединены в слои. Каждая связь между нейронами имеет свой вес, который отражает важность этой связи для передачи информации от одного нейрона к другому. Входной слой принимает данные (например, изображения или текст), а выходной — дает результат, (например, что на картинке изображено или что написано в тексте).
Возьмем как пример нейросеть, обучающуюся «с учителем» (подробнее про виды машинного обучения мы писали здесь). При обучении разработчик предоставляет нейросети набор помеченных данных, уже содержащих результаты. Нейросеть адаптирует свои веса и связи таким образом, чтобы минимизировать разницу между своим предсказанием и желаемым результатом. Например, если при обучении нейросеть генерирует ответ «Данная фотография – это фотография кошки с вероятностью 76%», а согласно обучающему набору на фотографии действительно кошка (соответственно вероятность должна быть 100%), то нейросеть корректирует свои веса таким образом, чтобы приблизиться к желаемым 100%. Далее в нее загружается следующая фотография. После обучения эти веса и связи сохраняются в нейросети.
Каким образом это связано с инверсионными атаками?
Инверсионные атаки — это класс атак на систему ИИ, которые используются для извлечения информации из моделей. Они направлены на обратный инжиниринг или «инверсию» обучения модели, чтобы выведать подробности об обучающих данных. Проще говоря, злоумышленник обращает процесс обучения вспять. Он начинает с выходных данных, постепенно раскрывает внутреннюю структуру и веса, чтобы восстановить оригинальные входные данные. Это происходит «снизу вверх», поскольку он начинает с выходного слоя «нейронов», анализирует выходы нейросети и пытается восстановить исходные данные, которые пропускались через входной слой во время обучения.
Механизм инверсионных атак
Сначала злоумышленник получает доступ к уже обученной модели машинного обучения, которая часто находится в публичном доступе или может быть получена из различных источников. Потом создает запросы к модели, предоставляя ей различные входные данные и фиксируя ответы модели на эти запросы. После чего злоумышленник использует полученные ответы, чтобы обучить свою собственную инверсионную модель. Которая, в свою очередь, стремится понять, какие входные данные могли быть использованы для получения именно таких ответов. После того, как инверсионная модель достаточно обучена, злоумышленник может использовать ее для восстановления информации об обучающих данных, например, изображений лиц или текстовых сообщений.
Один из наиболее известных примеров такой атаки был продемонстрирован в 2015 году в статье «Model inversion attacks thatexploit confidence information and basic countermeasures». В этом исследовании была использована модель машинного обучения, которая должна была предсказывать демографические данные, например, возраст и пол, на основе изображений лиц. С помощью инверсии модели авторы статьи смогли успешно восстановить изображения лиц людей, которые были использованы для обучения модели, воспользовавшись лишь именами субъектов данных и доступом к самой модели.
Ниже – результат их работы: справа вы видите оригинальную фотографию, на которой обучалась модель, а слева – восстановленную исследователями.
На восстановленной фотографии вы видите «шум», который добавился к данным в процессе их инверсии. Однако в опубликованной уже в 2022 году статье «When AI Facilitates Trust Violation: An Ethical Report on Deep Model Inversion Privacy Attack» исследователи утверждают, что им удалось создать «кристально чистых клонов» лиц, которые использовались для обучения, имея доступ лишь к модели ИИ.
Оценка уязвимости моделей ИИ к инверсионным атакам
Прежде чем организации смогут снизить риски, связанные с инверсионными атаками, они должны сначала оценить уязвимость своих ИИ-моделей к таким угрозам.
К сожалению, одним из известных факторов уязвимости считается использование объяснимых моделей (XAI).
XAI (Explainable Artificial Intelligence) — это подход в области искусственного интеллекта, который направлен на создание моделей, способных предоставлять понятные и интерпретируемые объяснения своих решений. Этот подход помогает пользователям лучше понять, как и почему модель принимает определенные решения, делая процесс их принятия более прозрачным. Однако объяснимые модели могут быть более уязвимыми к инверсионным атакам.
В статье «Exploiting Explanations for Model Inversion Attacks», авторы исследуют риск инверсионных атак, используя именно объяснения, которые модели предоставляли вместе с выходными данными. Дело в том, что объяснения являются дополнительным источником информации об обучающих данных для злоумышленника. В этой же статье исследователи предложили несколько архитектур атак, которые позволяют восстанавливать некоторые изображения из обучающего сета данных, используя объяснения, даваемые моделью.
Также одним из факторов, увеличивающих вероятность успеха инверсионной атаки, является непреднамеренное запоминание участков обучающих данных моделью. Это облегчает злоумышленникам восстановление полной информации о субъекте. В статье «The secret sharer: measuring unintended neural network memorization & extracting secrets» авторы называют среди возможных причин запоминания данных «переобучение» модели (overfitting), когда модель слишком сильно подстраивается под обучающий сет данных, запоминая их целиком вместо того, чтобы делать выводы о закономерностях. В статье также описывается методика количественной оценки этого риска. Она позволяет посчитать конкретную вероятность риска запоминания моделью тренировочных данных.
Нельзя забывать и про оценку возможностей атакующего. Атакующие, которые обладают продвинутыми знаниями о методах машинного обучения и доступом к вычислительным ресурсам, с большей вероятностью успешно выполнят сложные инверсионные атаки. При оценке ландшафта угроз организации должны учитывать потенциальные мотивы и цели злоумышленников, включая финансовую выгоду или саботаж.
В целом, оценка уязвимости ИИ-моделей к инверсионным атакам требует всестороннего понимания сложности модели, рисков, связанных с передачей данных, возможностей злоумышленников, уязвимостей, которые они могут использовать, и проактивных мер безопасности. Применяя проактивный и многомерный подход к оценке уязвимости, организации смогут повысить устойчивость своих систем ИИ и снизить риски, связанные с инверсионными атаками.
Снижение риска
Одним из самых обсуждаемых на данный момент методов снижения рисков, связанных в целом с обработкой больших данных, является дифференциальная приватность.
Дифференциальная приватность (Differential Privacy) — это концепция, направленная на защиту конфиденциальности данных в процессе их анализа. Основная идея заключается в том, чтобы обрабатывать данные таким образом, чтобы ни один индивидуальный вклад в анализ не мог привести к идентификации конкретного человека. То есть, даже если злоумышленник получит доступ к результатам анализа, он не сможет определить, принадлежат ли данные конкретному человеку или нет.
Как именно это работает? Когда данные обрабатываются с использованием дифференциальной приватности, к ним добавляется шум, то есть данные немного меняются в случайном порядке. Добавленный шум делает данные менее точными, но при этом сохраняет общие тенденции и паттерны. Это позволяет сохранить конфиденциальность персональных данных, таких как имена, адреса или другие чувствительные сведения. Посмотрите на изображение ниже: представим, что каждый участок фотографии – это данные конкретного лица. Добавив к фотографии шум, мы изменили данные таким образом, что сказать с точностью первоначальный цвет и узор каждого маленького участка больше нельзя, однако общий смысл картинки уловить все еще можно.
Целью дифференциальной приватности является сохранение полезности данных для анализа или обучения моделей, несмотря на добавленный шум. Это означает, что данные всё ещё могут использоваться для выявления общих тенденций и принятия решений, но без риска утечки конфиденциальной информации. Полезность данных сохраняется при использовании дифференциальной приватности благодаря тщательному балансированию между добавленным шумом и сохранением общих паттернов или тенденций данных. Вот как это происходит.
Добавляемый шум обычно незначителен по сравнению с реальными данными, что позволяет сохранить общие паттерны или статистику. Например, при анализе дохода людей в определенном добавленный шум не снизит полезность общей информации и позволит провести анализ. При этом данные становятся менее точными, особенно в отношении определенного субъекта. То есть, конкретные значения или идентифицирующие признаки могут быть искажены, чтобы предотвратить вероятность точного определения или восстановления личных данных. Параметры дифференциальной приватности позволяют управлять уровнем добавляемого шума, что способствует регулированию баланса между приватностью и точностью данных в зависимости от конкретных целей бизнеса и требований законодательств.
Давайте рассмотрим пример с подсчетом среднего дохода в городе N без использования и с использованием дифференциальной приватности.
Предположим, у нас есть база данных о доходах жителей города. Мы хотим вычислить средний доход, чтобы понять экономическое положение города. Без дифференциальной приватности мы можем просто взять сумму всех доходов и разделить на количество жителей. Однако для этого нам необходимо будет собрать и хранить информацию о доходе каждого человека, что увеличивает риски для компании.
Давайте теперь добавим шум к нашим данным. Для каждого дохода мы добавляем случайное значение с заданным параметром приватности. Это делает данные менее точными в отношении индивидуальных доходов, но сохраняет общие паттерны.
Например, если у нас есть следующие доходы: 30.000, 40.000, 50.000, 60.000, и мы хотим добавить дифференциальную приватность с параметром ϵ=0.5, исходя из которого будем рассчитывать нужный нам уровень шума.
Для первого дохода 30,000 мы можем добавить шум, допустим, +1000, получив 31,000.
Для второго дохода 40,000 добавляем шум, скажем, −500, получаем 39,500.
И так далее.
Затем мы можем вычислить средний доход с учетом этого шума. Основная задача заключается в расчете параметра ϵ. Он вычисляется в каждом случае индивидуально, чтобы сохранить полезность данных, но при этом добавить достаточный уровень шума. Это означает, что, хотя точные значения доходов жителей искажены, общая информация о среднем доходе в городе сохраняется. Таким образом, дифференциальная приватность позволяет нам анализировать данные, сохраняя при этом приватность индивидуальных записей.
В статье «Differential Privacy Technology Resistant to the Model Inversion Attack in AI Environments», авторы тестируют методы дифференциальной приватности на устойчивость к инверсионным атакам на модели и приходят к выводу, что дифференциальная приватность в большинстве случаев существенно снижает риски таких атак.
Кроме технических мер безопасности, не стоит также забывать и про организационные.
Реализация непрерывного мониторинга моделей и ведение подробных журналов аудита способствуют своевременному обнаружению и реагированию на подозрительные действия и потенциальные инверсионные атаки. Автоматизированные решения для мониторинга и механизмы протоколирования позволяют организациям отслеживать показатели производительности модели, взаимосвязи между входом и выходом и поведение системы в режиме реального времени. Необходимо отходить от восприятия моделей как «черных ящиков», выдающих непредсказуемые и неконтролируемые результаты. Организации должны быть уверены в том, что они обладают достаточными ресурсами, чтобы обеспечить безопасность своих моделей для клиентов.
Также, следует организовать комплексные программы обучения и повышения осведомленности разработчиков и заинтересованных сторон о лучших практиках безопасности, об угрозах и протоколах реагирования на инциденты. Необходимо ознакомить сотрудников с рисками, связанными с инверсионными атаками, и важностью соблюдения приватности на протяжении всего жизненного цикла разработки ИИ.
Внедряя эти практики в процессы, разработчики смогут проактивно выявлять и снижать риски, связанные с инверсионными атаками на модели ИИ, повышая общий уровень безопасности и устойчивость систем ИИ.
Юридические соображения: Считается ли модель ИИ персональными данными?
Законодательство о защите данных уже регламентирует обработку данных для создания моделей машинного обучения, а также применение результатов работы моделей к субъектам данных. Например,
- модели не могут обучаться на основе персональных данных без законного основания, такого как согласие, контракт или законный интерес;
- субъекты данных должны быть проинформированы о намерении обучать модель;
- cубъекты обычно имеют право возразить против обработки или отозвать согласие;
- в случаях, когда модели используются для принятия полностью автоматизированного решения, лица могут обратиться к контролеру данных за содержательной информацией о логике обработки или запросить пересмотр этого решения человеком.
Однако учитывая потенциал инверсионных атак, которые постоянно совершенствуются, появляется вопрос о том, должны ли сами модели иметь такую же защиту, как и персональные данные в традиционном для нас понимании. В этом разделе рассматриваются юридические соображения, связанные с классификацией моделей ИИ как персональных данных.
В GDPR персональные данные определяются широко и включают в себя любую информацию, которая может прямо или косвенно идентифицировать физическое лицо. Хотя Регламент прямо не касается моделей ИИ, он признает, что, к примеру, псевдонимизированные данные, которые требуют дополнительной информации для идентификации личности, подпадают под его действие. Поэтому, если модель искусственного интеллекта содержит в себе информацию, которая в сочетании с другими данными при использовании необходимых технических средств может идентифицировать человека, она попадает под определение персональных данных в соответствии с GDPR. Такую точку зрения высказывает в недавнем разъяснении немецкий регулятор, который упоминает, что если модель может быть подвержена инверсионным атакам, то вся модель может рассматриваться как персональные данные.
Однако уникальные характеристики моделей искусственного интеллекта вызывают вопросы о том, в какой степени они содержат персональные данные. Модели хранят данные в своих весах и структуре. И хотя сами они могут не содержать явных идентификаторов, в них заключены паттерны, корреляции и представления, полученные из обучающих данных, которые могут косвенно раскрывать информацию о человеке. Поэтому идентифицируемость моделей ИИ может зависеть от их контекста и возможностей злоумышленников.
Классификация целых моделей ИИ как персональных данных влечет за собой значительные последствия для бизнеса. Субъекты данных будут иметь право на доступ к содержанию модели ИИ, которая рассматривается как персональные данные. При этом выделить конкретный участок модели, который «сохранил» персональные данные конкретного лица чаще всего будет невозможно.
Субъекты также будут иметь право на удаление своих персональных данных из модели, что возможно только при полном переобучении модели на наборе, который не содержит информацию о них.
Кроме того, субъекты данных будут иметь право требовать ограничения обработки своих персональных данных в модели ИИ. Однако в контексте модели, которая уже используется для принятия решений или выполнения других функций, ограничение обработки данных может привести к нарушению ее функциональности в целом. К тому же, будет невозможно ограничить обработку персональных данных конкретного субъекта без ограничения обработки остальных данных.
А при условии, что запросы от субъектов будут приходить с течением времени, разработчику придется каждый раз изменять набор данных и заново обучать на них модель.
Итак, определение границ персональных данных в контексте моделей ИИ требует тщательного учета технологических и юридических факторов. На данный момент бизнес не готов к признанию моделей ИИ персональными данными.
Заключение
Рассмотрение инверсионных атак на модели машинного обучения в контексте защиты данных подчеркивает важность обеспечения конфиденциальности и безопасности в аналитических системах. А отнесение моделей к категории персональных данных предоставляет дополнительные права субъектам данных и накладывает дополнительные обязанности на контролеров данных.
Однако такой подход вносит и некоторые сложности. Неоднозначность в применении некоторых прав и обязанностей, а также технические трудности внедрения защитных мер требуют дальнейших исследований и разработок.
Тем не менее, понимание рисков и угроз, связанных с инверсионными атаками, способствует развитию эффективных мер по защите данных и обеспечению прозрачности в использовании моделей машинного обучения. Это важный шаг в направлении обеспечения сбалансированного подхода к развитию технологий и защите прав личности в цифровой эпохе.