Сохранность и анонимность персональных данных в социальных сетях

Автор: Харитонова А.Р.

Ежедневно попадая в виртуальное пространство, мы не только потребляем, но и передаем огромное количество информации о себе и окружающих, даже не задумываясь об этом. Как часто, регистрируясь на каком-либо сайте и соглашаясь с обработкой персональных данных, мы действительно читаем это самое согласие и обращаем внимание на все нюансы? Например, на возможность передачи предоставленных данных третьей стороне? Вся информация, которую мы предоставляем о себе, является персональной, которая при определенной обработке может давать обширное представление о конкретном человеке, включая его привычки и интересы, а иногда даже точно установить личность, что, по сути, является вмешательством в частную жизнь пользователей и нарушением конституционных прав гражданина.

Обратимся к понятию персональных данных, чтобы понять, какая информация может находиться под угрозой. Согласно Федеральному закону от 27 июля 2006 г. N 152-ФЗ "О персональных данных"[1] "персональные данные — любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту персональных данных)". Хочется подчеркнуть, что любая информация, предоставленная пользователем, должна быть защищена от распространения в своем первоначальном виде, но "обработка персональных данных осуществляется в статистических или иных исследовательских целях… при условии обязательного обезличивания персональных данных". Таким образом, в силу закона информация, подверженная анонимизации, может быть использована в различных исследовательских целях. Однако нигде не указано, каким именно образом эти самые данные должны быть обезличены, какая информация должна отсутствовать, что можно использовать для исследований и каковы цели этих исследований. Если обратиться к наиболее известному на данный момент зарубежному акту о персональных данных General Data Protection Regulation (GDPR) — Общему регламенту по защите данных[2], то можно увидеть, что понятие обезличивания (здесь — "псевдонимизации") раскрыто более полно: "псевдонимизация" означает обработку персональных данных таким образом, что персональные данные больше не могут быть отнесены к конкретному субъекту данных без использования дополнительной информации при условии, что такая дополнительная информация хранится отдельно и подлежит техническим и организационным мерам, чтобы личные данные не были отнесены к идентифицированному или идентифицируемому физическому лицу. Кроме того, в этом же документе можно найти указание о том, что считается просто "персональной информацией" (Personal Data), а что — "чувствительной персональной информацией" (Sensitive Personal Data).

При этом современное европейское законодательство достаточно подвижно в вопросе определения состава таких данных. Например, в отличие от предыдущей Директивы (DPD — Data Protection Directive)[3], выпущенной в Европейском союзе, информация о криминальном прошлом субъекта данных больше не будет считаться "чувствительной", но информация, касающаяся его/ее философских убеждений и сексуальной ориентации, — будет. И впервые генетические и биометрические данные также будут считаться "чувствительными". Мы видим, что при обезличивании данных особое внимание должно быть обращено именно на "чувствительную" информацию как на самую важную и имеющую решающее значение.

Однако для закрепления правил об анонимизации данных граждан и юридических лиц представляется важным определить, что же такое анонимизация с точки зрения применяемых технологий? Формальная анонимизация (обезличивание) заключается в удалении из каждого вектора данных формальных или прямых идентификаторов объекта. После обезличивания объект может быть однозначно опознан только по косвенным идентификаторам. Формальная анонимизация микроданных является обязательной процедурой при предоставлении доступа к микроданным[4]. На первый взгляд может показаться, что такого подхода будет достаточно, если просто удалить из наборов данных (в дальнейшем — датасетов) ФИО, паспортные данные и данные кредитных карт лица, если такие есть, а также другие пункты, входящие в сферу "чувствительной" персональной информации. Но достигается ли данными средствами поставленная законодательством цель на самом деле?

Известно, что за последние десятилетия множество компаний опубликовали датасеты с информацией, относящейся к конкретным индивидуумам, но, по их мнению, анонимизированной, чтобы сообщество могло использовать их для проведения исследований, как своих собственных, так и для заинтересованных компаний. Некоторые данные содержали охраняемую законом информацию, например истории болезней, другие содержали потенциально конфиденциальные данные о пользовательских предпочтениях, из которых были удалены Ф.И.О., адреса и другие идентификаторы граждан. Однако через некоторое время стало понятно, что эти данные не являются изолированными, а пользователи имеют не только один аккаунт в сети, а значит, злоумышленники, пользуясь открытыми источниками, могут деанонимизировать пользователей, информация о которых содержится в датасетах. Это объясняется тем, что каждый элемент датасета (то есть описание пользователя) состоит из набора признаков, среди которых встречаются редкие значения, на основании которых достаточно просто делать выводы о конкретном пользователе.

Как отмечают правоведы, анонимизация персональных данных больше не гарантирует действительной анонимности субъекта в эпоху больших данных[5]. Иллюстрацией может являться опубликованный в 2006 г. датасет Netflix (на тот момент — фирма по прокату фильмов на DVD, которым после просмотра пользователи выставляли оценки). Целью компании было улучшить существующий алгоритм рекомендации фильмов пользователям на основе выставленных ими оценок. С точки зрения бизнеса это давало огромное количество преимуществ для наиболее релевантного выбора подходящего фильма. К 2009 г. несколькими компаниями были предложены алгоритмы, которые улучшили точность рекомендательной системы на 10%. Однако оказалось, что данные пользователей не так уж и защищены обезличиванием. Чуть ранее, в 2006 г., ученые из Техасского университета опубликовали исследование[6], в котором показали, как на основе данных оценок, выставленных пользователями, данных о времени выставления оценки и информации из IMDb (Internet Movie Database) они "определили записи Netflix известных пользователей, раскрыв их очевидные политические предпочтения и другую потенциально конфиденциальную информацию"[7]. Необходимо отметить, что в действительности идентификация не была полной (ФИО, адрес и другие данные не были установлены), но для большого количества пользователей было составлено полное соответствие с их профилями на IMDb. Оказывается, если исключить из списка 100 наиболее часто просматриваемых фильмов, то предпочтения в фильмах будут достаточно индивидуальными. И это верно не только для фильмов, но и для покупательских привычек, телефонных разговоров, книг и так далее. Возможно, это не так страшно в контексте настоящего раскрытия личности, но в то же время люди, знающие, кому принадлежит тот или иной аккаунт (родственники, друзья, коллеги и т.д.), могут узнать информацию, которая должна была быть для них недоступной по тем или иным причинам. В этом исследовании было показано, что, даже обладая небольшим количеством информации, можно достаточно быстро идентифицировать пользователей с достаточной точностью. Кроме того, даже изменение или частичное удаление данных в этом датасете несильно бы повлияло на работу алгоритма, потому что он является работоспособным даже на "испорченных" данных. Сферу применения рассматриваемого алгоритма можно расширять. Например, связывать анонимные записи в соцсетях с пользователями, основываясь на особенностях текста и используя, например, техники NLP (Natural Language Processing).

Деанонимизация данных по базе отзывов, оставленных пользователями на платформе Amazon, может стать ключом к информации общедоступной базы данных покупок по кредитным картам или большей базы анонимных рецензий на книги. Например, по открытому анонимному датасету переписи 1990 г. в США 87% жителей США могут быть идентифицированы по пятизначному почтовому индексу, дате рождения и полу. Л. Суини[8] показала, что даже если предоставлять менее четкую информацию (вместо индекса иметь только муниципалитет или даже страну), то идентификация все еще возможна, хотя и не с такой точностью. Эти результаты подтверждены схожим исследованием, проводимым Стэнфордским университетом[9]. Оказалось, что дата рождения (в отличие от месяца и дня) является ключевым фактором в установлении соответствий. В исследовании были показаны зависимости от возраста человека с тем, насколько просто идентифицировать его личность, зная также его пол и местоположение (для людей младше 50 лет это примерно одинаковые значения, в то время как для людей старше 50 угроза неприкосновенности частной жизни резко возрастает).

Подводя промежуточные итоги, хочется заострить внимание на понятии процесса деанонимизации. Если, с точки зрения пользователя, важно, стало ли известно широкому кругу лиц соответствие его личности и каких-то признаков в сфере данных (привычек, покупок, персональной информации) из какого-либо датасета, то с точки зрения математики деанонимизация — это процесс сопоставления нескольких математических множеств, отражающих поведение пользователя в сети, в поисках пересечений. Если у исследователя есть конкретные наборы данных, то и найти такие пересечения не представляется большой сложностью, достаточно проанализировать даже небольшой объем записей. Но можно ли каким-либо математическим способом изменить данные так, чтобы возможность их деанонимизации снизилась? Каким образом можно потребовать от организаций, собирающих данные, это требование соблюдать?

На практике существует некоторое количество приемов, которые позволяют добиться большей анонимности. Данные в каждом датасете, как уже говорилось, обладают специфическим набором признаков (или идентификаторов): ключевые атрибуты (ФИО, адрес, номера телефонов должны заведомо отсутствовать, так как являются уникальными для каждого пользователя); квазиидентификаторы (набор признаков, которые могут быть использованы для определения личности, например, связка почтовый индекс — дата рождения — пол); чувствительная информация (медицинские данные, данные о зарплатах, политических предпочтениях и т.д. — данные, необходимые для исследований).

Одной из наиболее популярных концепций, используемых при обработке персональных данных[10], является концепция k-anonimity. Это означает, что данные группируются таким образом, чтобы квазиидентификаторы в них могли быть заменены каким-то обобщением и при этом "полезность" не была бы нарушена. Например, если у нас есть возраст пользователей, то вместо указания конкретного значения можно указывать принадлежность к той или иной возрастной группе (младше 18, 18 — 25, 25 — 40 и т.д.). Также применим подход упразднения — замена всех данных в поле пользователей другим значением ("*"). Хотя в силу крайней степени обобщения такой подход может негативно сказаться на дальнейших исследованиях.

При помощи приведенных изменений датасета мы получим новый, который будет являться k-анонимным, если какой-либо квазиидентификатор появляется как минимум в k-записях (отсюда и название). Если произвольно выбрать пользователя по данному критерию, то мы найдем еще как минимум k-1 с точно таким же значением, то есть данные конкретного лица по этим записям найти нельзя. Достаточно ли этого, чтобы назвать данные полностью анонимными? Исследования показали, что нет. Существует две ситуации, когда k-анонимность не обеспечивает полной конфиденциальности: если данные о получившемся классе эквивалентности лишены разнообразия (например, все пользователи с индексом 123*** и возрастной группой 25 — 40 больны гриппом (чувствительные данные)) или если у нас есть предшествующие знания, которые позволяют сделать дополнительные выводы.

В таких случаях применяется концепция L-разнообразия. Данный принцип предполагает, что данные конфиденциальны, если в конкретном классе эквивалентности присутствует хотя бы L различных значений для чувствительных данных. При больших значениях L определить конкретные чувствительные данные является почти невыполнимой задачей. Но что же делать, если чувствительные данные бинарны (имеют только значения вида "да"/"нет"), причем соотношение данных неравномерно (99% против 1%)?

Концепция, которая частично решает проблемы, возникающие при использовании L-разнообразия, называется T-близостью. Это значит, что если расстояние между чувствительными атрибутами класса эквивалентности будет меньше или равно порогу, тогда класс эквивалентности обладает Т-близостью. Такие расстояния определяются с помощью специально введенных метрик, основанных на семантической близости значений объектов. Таким образом, K-анонимность и T-близость совместно могут усиливать конфиденциальность данных.

Есть также другие техники, которые применяются в обезличивании данных, например, добавление математических шумов, при которых данные искажаются достаточно сильно.

Используя описанные выше парадигмы, можно достичь высоких результатов в анонимизации и сделать данные почти неидентифицируемыми. Но в таком случае мы оказываемся перед другой проблемой. Зачастую такие данные становятся бесполезными в дальнейших исследованиях — слишком далекими от реальности. Да, их все еще можно использовать для решения глобальных проблем, например, таких как анализ транспортной сети[11], но это основано скорее на том, что количество записей в изучаемом датасете было достаточным для выявления общих паттернов и последующих рекомендаций. Однако для более сложных задач, связанных, например, со здравоохранением, требуются куда более точные данные, чтобы иметь возможность делать какие-то выводы. Поэтому при публикации данных компании заинтересованы в соблюдении баланса между достаточной анонимизацией и достоверностью данных. В каких-то ситуациях стоит пожертвовать полной анонимностью пользователя для того, чтобы получить более точный результат. Полагаем, это должно учитываться законодателем при разработке законодательства в рассматриваемой сфере.

Проблема анонимизации датасетов не единственная, связанная с приватностью пользователей и их персональными данными. В 2018 г. разгорелся скандал с участием социальной сети Facebook и компании Cambridge America[12]. Cambridge America заплатила третьей стороне за создание приложения на базе Facebook, которое выглядело как тест на определение личности и просило пользователей предоставить собственные персональные данные за некоторое вознаграждение. И, казалось бы, если эта информация используется для научных исследований и участники дали согласие на использование своих данных, то все правомерно. Однако выяснилось, что, во-первых, приложение собирает персональные данные не только пользователя, но и всех его друзей, а во-вторых, данные о психологических портретах продавались Cambridge America, которая использовала их при создании таргетированной политической рекламы. Таким образом, они могли повлиять на политическую ситуацию в мире, основываясь на персональных данных пользователей, которые не были осведомлены и не давали на это своего согласия.

Полагаем, в современных социальных сетях содержится настолько большое количество персональной информации, что пользователям необходимо иметь возможность управлять своей конфиденциальностью. Пользователи социальных сетей имеют некоторый круг общения (друзей), с которыми они готовы делиться своей персональной информацией, также есть некоторые элементы, которые они готовы предоставлять всем пользователям сетей. Ограничения доступа к информации должны быть выставлены пользователем самостоятельно, каждый сам устанавливает границу конфиденциальности и открытости. Это конституционное право гражданина.

Основные проблемы возникают в тот момент, когда становится понятно, что у социальной сети нет грамотно сформулированных правил конфиденциальности и что отсутствует обеспечение оптимальной поддержки. В последние годы проводилось несколько исследований, которые были основаны на опросах пользователей социальных сетей о том, как бы они осуществляли ограничение их персональных данных. Во-первых, многие пользователи готовы тратить достаточное количество времени на настройку правил конфиденциальности (или даже просят дополнительный и расширенный функционал). Во-вторых, пользователям не хватает возможности создавать атомарные правила, зависящие от социального контекста и таких характеристик, как местоположение[13], временные метки, интенсивность взаимодействия с другим пользователем (например, как часто они находятся рядом). Однако вместо использования этих характеристик по отдельности было бы хорошо иметь возможность комбинировать их на усмотрение пользователя, чтобы установить четкий круг правил доступа остальным пользователям к их информации. Эти правила должны быть отражены в законодательстве и обоснованы тем, что именно пользователь считает чувствительной информацией, которой он не готов делиться с определенным кругом лиц, в соответствии с теорией регулирования интимных признаний в межличностных отношениях[14]. Основной идеей этой теории является то, что степень раскрытия информации пользователем варьируется от того, кто является собеседником, где и в каких условия состоится обмен информацией, то есть от социального контекста. Таким образом, со стороны социальных сетей было бы разумно предоставить дополнительные возможности для управления доступом к персональным данным, тем самым снимая с себя ответственность за распространение данных, если пользователь настраивал все самостоятельно, а не пользовался стандартной политикой конфиденциальности (которая также должна быть уточнена в соответствии с законодательством и современными запросами). Это решит сразу несколько проблем: во-первых, повысится уровень конфиденциальности в целом в связи с появлением более актуальных правил, во-вторых, пользователи смогут как устанавливать свои правила, соответствующие их личным требованиям, так и быть уверенны, что они исполняются.

Однако если вернуться к скандалу, связанному с Facebook и Cambridge America, становится ясно, что, даже если пользователь установил четкие правила доступа к персональной информации, они могут ничего не значить, если социальная сеть использует эти данные, не информируя пользователя. Как уже было сказано, основной целью управления доступом к данным является защита их от несанкционированного использования в любых целях, то есть контроль отсутствия утечек информации. Если социальная сеть нарушает конфиденциальность, предоставляя данные третьим лицам без согласия пользователей, то утечки информации неизбежны. Возможным решением этой проблемы может являться создание специализированных сервисов, которые будут информировать пользователя о том, куда будут направлены его данные, какие компании уже имеют к ним доступ и как именно они распоряжаются данными (один из важнейших элементов), для каких исследований они их используют, то есть предоставлять полную справку об их возможном использовании. Например, сейчас существуют технологии, позволяющие пользователю не регистрироваться на каждом сайте отдельно, а использовать свои профили Facebook или Google Account (с помощью OpenID). При авторизации таким образом пользователь должен подтвердить, что готов предоставить конкретному сайту свою персональную информацию (конкретный набор данных). Что происходит с этой информацией дальше — чаще всего не самый очевидный вопрос. Поэтому сервисы, информирующие о любом использовании информации третьими лицами, могут содержать информацию, в том числе о таких сайтах, куда пользователь сам разрешил доступ, но не проверил добросовестность. Существование таких сервисов и их интеграция в пользовательское пространство благотворно скажутся на решении проблемы конфиденциальности, во-первых, потому что пользователи будут знать, где и как используются их данные и в каком объеме, а также будут иметь возможность управлять доступом для всех ресурсов и регламентировать все, что происходит с их чувствительными данными. При этом за сокрытие какого-либо способа использования социальные сети должны нести наказание как минимум в виде штрафа, поэтому, конечно, потребуется урегулирование на законодательном уровне.

Подводя итог, хочется сказать, что проблема конфиденциальности персональных данных стоит очень остро в современном мире. На первый взгляд кажется, что люди не обеспокоены распространением своих данных, раз они сами публикуют в сети огромное количество информации, но при ближайшем рассмотрении становится понятно, что они готовы делиться с ограниченным кругом лиц и не согласны на свободный доступ для всех, а также на то, что их данные могут быть проанализированы третьими лицами. Однако если проблема анонимизации датасетов решаема с помощью использования нескольких техник, то проблема использования данных третьими сторонами в своих целях требует вмешательства на законодательном уровне.

Поэтому в социальных сетях должны появиться средства управления конфиденциальностью данных, доступные каждому, а также сервисы, сообщающие о любом использовании данных. Если же говорить об использовании анонимизированных датасетов в исследовательских целях, то стоит помнить о том, что анонимизация — это всегда жертвование точностью ради сохранности данных, и необходимо провести процесс так, чтобы баланс этих двух аспектов был соблюден как можно лучше.

Литература

1. Миклашевская М. Facebook призывают ответить за утечку данных 50 млн пользователей / М. Миклашевская // Коммерсантъ. 2018. 19 марта.

2. Савельев А.И. Проблемы применения законодательства о персональных данных в эпоху больших данных (Big Data) / А.И. Савельев // Право. Журнал Высшей школы экономики. 2015. N 1. С. 43 — 66.

References

1. Golle P. Revisiting the uniqueness of simple demographics in the US population / P. Golle // ACM Workshop on Privacy in the Electronic Society (2006 October 30. Alexandria; VA). New York: ACM, 2006. P. 77 — 80.

2. Groh G. Contextual Social Networking: Habilitation thesis in Computer Science / G. Groh. Germany, Munich, 2012. 625 p. URL: http://www11.if.tum.de/georgFiles/files/habil.pdf.

3. Narayanan A. Robust De-anonymization of Large Datasets (Narayanan A. How to Break Anonymity of the Netflix Prize Dataset) / A. Narayanan, V. Shmatikov. URL: arXiv:cs/0610105.

4. Petronio S. Communication Privacy Management Theory: What Do We Know About Family Privacy Regulation? / S. Petronio // Journal of Family Theory & Review. 2010. Vol. 2. P. 175 — 196. URL: https://doi.org/10.1111/j.1756-2589.2010.00052.x/.

5. Sweeney L. K-anonymity: a model for protecting privacy / L. Sweeney // International Journal on Uncertainty, Fuzziness and Knowledge-based Systems. 2002. Vol. 10 (5). P. 557 — 570.

[1] Федеральный закон от 27 июля 2006 г. N 152-ФЗ "О персональных данных" // Российская газета. 2006. 29 июля.

[2] Регламент N 2016/679 Европейского парламента и Совета Европейского союза "О защите физических лиц при обработке персональных данных и о свободном обращении таких данных, а также об отмене Директивы 95/46/ЕС (Общий Регламент о защите персональных данных)" [рус., англ.] (прин. в г. Брюсселе 27.04.2016). URL: http://eur-lex.europa.eu/.

[3] Директива N 95/46/ЕС Европейского парламента и Совета Европейского союза "О защите физических лиц при обработке персональных данных и о свободном обращении таких данных" (прин. в г. Люксембурге 24.10.1995) // СПС "КонсультантПлюс".

[4] Приказ Росстата от 19 апреля 2013 г. N 165 "Об утверждении Методологических положений по формированию массивов деперсонифицированных микроданных годового структурного обследования по форме федерального статистического наблюдения N 1-предприятие "Основные сведения о деятельности организации" общего пользования для представления пользователям в аналитических целях" // СПС "КонсультантПлюс".

[5] Савельев А.И. Проблемы применения законодательства о персональных данных в эпоху больших данных (Big Data) // Право. Журнал Высшей школы экономики. 2015. N 1. С. 54 — 61.

[6] Narayanan A., Shmatikov V. Robust De-anonymization of Large Datasets (Narayanan A. How to Break Anonymity of the Netflix Prize Dataset). URL: arXiv: cs/0610105.

[7] URL: https://arxiv.org/abs/cs/0610105.

[8] Sweeney L. K-anonymity: a model for protecting privacy // International Journal on Uncertainty, Fuzziness and Knowledge-based Systems. 2002. Vol. 10 (5). P. 557 — 570.

[9] Golle P. Revisiting the uniqueness of simple demographics in the US population // ACM Workshop on Privacy in the Electronic Society (2006 October 30. Alexandria; VA). New York: ACM, 2006. P. 77 — 80.

[10] См., например, политику конфиденциальности Google: URL: https://policies.google.com/technologies/anonymization?hl=ru.

[11] URL: https://linc.cnil.fr/fr/cabanon-can-anonymi-sed-data-still-be-useful.

[12] Facebook призывают ответить за утечку данных 50 млн пользователей // Коммерсантъ. 2018. 16 марта.

[13] Groh G. Contextual Social Networking: Habilitation thesis in Computer Science. Germany, Munich, 2012. 625 p. URL: http://www11.in.tum.de/georgFiles/files/habil.pdf.

[14] Petronio S. Communication Privacy Management Theory: What Do We Know About Family Privacy Regulation? // Journal of Family Theory & Review. 2010. Vol. 2. P. 175 — 196. URL: https://doi.org/10.1111/j.1756-2589.2010.00052.x/.

Сохранность и анонимность персональных данных в социальных сетях

Литература

References

Связанные статьи:

Рекомендуется Вам: