ЮрФак: изучение права онлайн

Доступ к информации для целей машинного обучения: каким должно быть регулирование?

Автор: Харитонова А.Р.

Если посмотреть на новостные ленты последних лет, то мы увидим, что самые популярные и обсуждаемые новости — это те, в которых говорится, какие компании и в какой области применили искусственный интеллект / машинное обучение / нейронные сети (нужное подчеркнуть). Это происходит потому, что машинное обучение стало настоящим технологическим прорывом и именно оно играет одну из важных ролей в процессе изменения жизни людей и функционировании различных сфер промышленности и бизнеса.

Что же представляет из себя машинное обучение? Если говорить просто, то в программу подается "тренировочный" набор данных (дата-сет), он может состоять из текстовых данных, картинок, звука и т.д., а затем алгоритм на основе анализа информации, полученной из этих данных, пытается "предсказать" результат на новых данных, загруженных в алгоритм. По сути, алгоритм машинного обучения помогает нам ответить на тот или иной вопрос на основе имеющихся у нас данных.

Можно выделить три ключевых составляющих, необходимых для машинного обучения:

1. Алгоритм. Для решения конкретной задачи всегда существуют несколько методов машинного обучения. Зачастую эксперты в области машинного обучения (дата-сайнтисты) строят несколько математических моделей для описания данных по разным методам, чтобы потом выбрать наиболее подходящую. От выбора метода зависит точность, скорость работы и размер готовой модели.

2. Данные. Дата-сет, который мы будем подавать на вход алгоритму, должен содержать информацию, которую мы хотим проанализировать. Хотим предсказывать курс акций — нужна история цен, анализировать популярность продукта — нужны отзывы покупателей, узнать интересы пользователя — нужны его лайки или посты. Для грамотной и верной работы алгоритма данных нужно как можно больше.

3. Признаки (фичи). В каждом дата-сете есть определенный набор характеристик, на основе которых дата-сайнтист может построить алгоритм и определить вклад той или иной фичи в конечный результат. Зачастую отбор правильных фич занимает больше времени, чем вся работа алгоритма машинного обучения.

И если проблем с тем, чтобы выбрать необходимый алгоритм (многие из них находятся в открытых библиотеках для разных языков программирования) или выбрать необходимые фичи, даже несмотря на то что это занимает длительное время, нет, то с данными не все так просто.

Для начала есть распространенный миф о том, что полезны любые данные, но это не так. Чтобы создать модель машинного обучения, требуется репрезентативная выборка данных с нужными закономерностями, позволяющая решить именно те задачи, на которые ориентирован конкретный алгоритм машинного обучения. При этом данные должны быть достаточно разнообразными, поскольку модель машинного обучения запомнит специфичные закономерности и будет искать их в данных, с которыми вы ее используете. Поэтому хорошие дата-сеты — настоящий клад для дата-сайнтистов, который готовы собирать любым доступным способом.

Райан Кало в своей статье упоминает, что "у тех, кто занимается машинным обучением, по сути, есть три способа добывать достаточную информацию. Они могут сами создавать базы данных, они могут покупать данные или они могут идти более простым путем, например, используя открытые данные… Первые два пути в большей степени доступны крупным фирмам и институтам, таким как Facebook и вооруженные силы"[1].

Создание баз данных — процесс долгий, трудоемкий и затратный, поэтому компании, только выходящие на рынок, не имеют возможности конкурировать с такими гигантами, как Facebook, Google или Яндекс. Получается, что у крупных компаний есть монополия не только на сбор большого количества данных, но и на саму обработку этих данных, что противоречит конституционным правам на доступ к информации.

Согласно п. 1 ст. 8 Конституции РФ граждане (физические лица) и организации (юридические лица) (далее — организации) вправе осуществлять поиск и получение любой информации в любых формах и из любых источников при условии соблюдения требований, установленных настоящим Федеральным законом и другими федеральными законами, а согласно п. 4 ст. 29 Конституции РФ каждый имеет право свободно искать, получать, передавать, производить и распространять информацию любым законным способом. Поэтому, если нужно обучить модель, не покупая данные, мы можем использовать несколько источников:

1. Предобученные модели — так называемый зоопарк моделей — готовое решение, используемое, если нам не хватает собственных данных для обучения модели.

2. Открытые наборы данных. Они есть, их достаточно много, но зачастую они не помогут решить конкретную задачу, потому что имеют специфику, отличную от необходимой. Однако для получения начальных результатов такие дата-сеты использовать стоит, потому что они помогут с предварительным решением проблемы.

3. Сбор данных с сайтов. Можно реализовать свой парсер сайта (или сайтов) — простейшую программу, которая автоматически собирает с них нужные данные, что позволит создать свой новый набор данных (что не противоречит законодательству и не нарушает права создателей сайтов в силу открытости исходного кода интернет-страниц).

Таким образом, мы получим дата-сет, над которым возможно в дальнейшем произвести анализ. Однако "сырые" данные предварительно надо обработать: очистить, заполнить пустоты и разметить. Все эти процессы требуют большого количества времени и человеческих ресурсов. Дата-сайнтисты чаще занимаются этим сами или с использованием специализированных ресурсов, например сервиса "Яндекс. Толока".

Однако Райан Кало пишет: "Фирмы будут (и делают это уже сейчас) ссылаться на неприкосновенность частной жизни потребителей, чтобы обосновать запрет на доступ к своим данным"[2]. В последнее время это происходит все чаще. Отсутствие четкого правового регулирования отношений, связанных с использованием информации, приводит к появлению различных мнений по вопросу о пределах свободного использования размещенной в сети Интернет информации о людях, что особенно интересно в свете продолжающегося рассмотрения дела по иску ООО "ВКонтакте" против ООО "Дабл" и АО "Национальное бюро кредитных историй" в АС города Москвы[3]. В данном споре соцсеть требует запретить ответчикам использовать открытые данные своих пользователей для оказания услуг по оценке кредитоспособности заемщиков[4].

Рассмотрение дела еще идет, но на текущем этапе особенно интересными являются следующие аргументы сторон, приведенные в Постановлении Суда по интеллектуальным правам от 24 июля 2018 г. N С01-201/2018 по делу N А40-18827/2017[5]:

— ООО "Дабл" считает, что не осуществляет извлечение элементов базы данных пользователей социальной сети, поскольку это технически невозможно. Общество полагает, что алгоритм его действий является сходным с алгоритмами работы поисковых систем, поскольку программное обеспечение осуществляет исключительно "кэширование" информации (копирование ссылок на карточки пользователей) и ее последующее индексирование, тогда как непосредственный доступ к названным карточкам получают клиенты общества "Дабл" при введении запроса о поиске конкретного пользователя социальной сети;

— необоснованность доводов оппонентов общество "ВКонтакте" мотивирует тем, что ссылки первого на технические алгоритмы работы программного обеспечения, аналогичные действиям глобальных поисковых систем, не означают отсутствие состава нарушения исключительного права на базу данных, поскольку поисковые системы освобождаются от ответственности за нарушение исключительных прав правообладателей не в силу статуса "поисковика", а благодаря распространению на них нормы ст. 1253.1 ГК РФ и применению к ним статуса информационного посредника. Общество "Дабл" между тем, приравнивая свои действия к деятельности поисковых систем, не признает за собой статуса информационного посредника и не доказывает обстоятельства, способные при таком статусе освободить его от ответственности за нарушение.

На наш взгляд, данные, собранные обществом "Дабл", как было показано, можно с помощью несложных алгоритмов получить из исходного кода на любом сайте, что не противоречит их открытости и не является базой данных.

Таким образом, ограничение доступа к открытым данным, размещенным в сети Интернет, как самими гражданами о себе, так и третьими лицами о чем-то, может быть включено в систему машинного обучения, исследовано и положено в основу самых разных прогнозов, построенных алгоритмами машинного обучения. При этом сбор и анализ соответствующих больших сырых данных не должны ограничиваться гигантами — информационными посредниками, так как объект, содержащий разного рода данные, в данном случае не возникает до тех пор, пока эти данные не систематизированы каким-либо образом по определенным признакам.

Литература

1. Архипов В.В. Проблема квалификации персональных данных как нематериальных благ в условиях цифровой экономики, или Нет ничего более практичного, чем хорошая теория / В.В. Архипов // Закон. 2018. N 2. С. 52 — 68.

2. Савельев А.И. Направления регулирования Больших данных и защита неприкосновенности частной жизни в новых экономических реалиях / А.И. Савельев // Закон. 2018. N 5. С. 122 — 144.

References

3. Calo R. Artificial Intelligence Policy: A Primer and Roadmap / R. Calo // Social Science Research Network. 2017. Vol. 51. P. 399 — 427.

 


[1] Calo R. Artificial Intelligence Policy: A Primer and Roadmap // Social Science Research Network. 2017. Vol. 51. P. 399 — 427.

[2] Ibid.

[3] Архипов В.В. Проблема квалификации персональных данных как нематериальных благ в условиях цифровой экономики, или Нет ничего более практичного, чем хорошая теория // Закон. 2018. N 2. С. 52 — 68.

[4] Савельев А.И. Направления регулирования Больших данных и защита неприкосновенности частной жизни в новых экономических реалиях // Закон. 2018. N 5. С. 122 — 144.

[5] Постановление Суда по интеллектуальным правам от 24 июля 2018 г. N С01-201/2018 по делу N А40-18827/2017 // СПС "КонсультантПлюс".


Рекомендуется Вам: