Что такое дифференциальная конфиденциальность и почему Apple так в восторге от этого?

Неожиданная звезда iOS 10 вполне может оказаться малоизвестной криптографической системой, позволяющей сбалансировать конфиденциальность и персонализацию, поскольку Apple в дальнейшем позиционирует себя как бастион защиты пользовательских данных. Дифференциальная конфиденциальность, возможно, не так хороша, как расширенный набор навыков Siri, и не так своевременна в культурном смысле, как новые смайлы и стикеры, но, возможно, она гораздо важнее, чем то и другое.

Apple не предпринимала никаких усилий в настройке конфиденциальности – и в том, кто имеет права на ваши данные как пользователь часто бесплатных услуг – как ключевое отличие между ним и его конкурентами. Google и Microsoft не были упомянуты поименно, но публичное обязательство Apple во время выступления на WWDC избегать таких вещей, как профили и отслеживание были явной атакой на конкурентов, которые предпочитают обрабатывать данные в облаке и, возможно, параллельно заниматься небольшим анализом данных. путь.

Однако в процессе это загоняет Apple в угол. В конце концов, анализ данных является важной частью любой платформы, особенно когда вы пытаетесь предоставлять более точные и полезные предложения в Apple. Карты, решайте, какие треки будут самыми популярными в Apple Music, или заранее находите новые слова и фразы для добавления в iOS». автокоррекция.

Крейг Федериги из Apple проверил ответ на эту дилемму во время вчерашнего выступления на WWDC, но это было позже. день, на презентации компании State of the Union, где разработчики действительно познакомились с дифференциалом конфиденциальность.

Apple не создавала дифференциальную конфиденциальность; на самом деле это хорошо известный метод, с помощью которого можно замаскировать данные, чтобы предотвратить извлечение отдельных записей.

Он работает путем добавления шума к каждой записи, достаточного для того, чтобы невозможно было узнать, каким был исходный ответ. Это делает каждый отдельный результат бесполезным, если рассматривать его по отдельности, но в совокупности вы можете получить ту же статистическую информацию, что и традиционные методы, но без риска того, что данные каждого человека будут сделал вывод.

Есть хороший пример – без лишней математики – от исследователя конфиденциальности Энтони Токара о том, как можно определить индивидуальный доход на основе якобы анонимной базы данных жителей определенного района.

Как это поможет в iOS 10? Допустим, Apple хочет уточнить, какие предложения она делает для потенциальных ресторанов в Apple Maps, когда кто-то ищет место для обеда. Традиционным способом может быть регистрация каждого пользователя и того, что он нажимает, а затем объединение всех этих данных с несколькими пользователями.

Однако Apple сказала «нет» таким «профилям пользователей», и поэтому дифференциальная конфиденциальность решает их более сложным, но менее отслеживаемым способом.

Каждой глубокой ссылке присваивается уникальный хэш, к которому, когда он встречается пользователем, добавляется шум, извлекается фрагмент и этот фрагмент отправляется в Apple. По отдельности каждый фрагмент бесполезен: Apple не могла использовать его для идентификации исходного пользователя и его выбора.

Однако в совокупности все эти фрагменты можно объединить, чтобы выяснить фактические предпочтения, не раскрывая индивидуальные предпочтения какого-либо конкретного пользователя.

Это умная штука, хотя теоретически при чрезмерном использовании она может дать Apple достаточно фрагментов информации от каждого человека, чтобы их можно было идентифицировать.

Чтобы этого не произошло, Apple назначает так называемый «бюджет конфиденциальности», фактически ограничивающий количество отправленных фрагментов, которые могут быть отправлены от одного человека в течение установленного периода. Те, которые все же были отправлены, попадают в анонимный конвейер, и Apple периодически удаляет пожертвования фрагментов с сервера.

Дифференциальная конфиденциальность существует в криптографических кругах уже несколько десятилетий, но публичное принятие этого подхода Apple, вероятно, на сегодняшний день привлечет к нему наибольшее внимание.

Учитывая легкость, с которой можно проанализировать даже небольшой объем метаданных, чтобы выделить отдельных лиц, одна группа исследователей Массачусетского технологического института пришла к выводу, что это занимает всего около четырех записей примерного места и времени для 95 процентов людей в мобильной базе данных с 1,5 миллионами пользователей, которая будет однозначно идентифицированы – вполне вероятно, что следующий большой вопрос в области конфиденциальности будет заключаться не только в том, защищены ли мы, но как.