يشرح باحثون من جامعة إمبريال كوليدج Imperial College في لندن وجامعة لوفان الكاثوليكية Louvain (UCLouvain) في بلجيكا في مقال أنه من الممكن إعادة تحديد هوية الأفراد عن طريق الهندسة العكسية لعينة من البيانات مجهولة المصدر باستخدام تقنيات التعلم الآلي.
يتمثل الحل الرئيسي لمشاركة البيانات مع الحفاظ على خصوصية الأفراد في حذف تسجيل المعرفات المباشرة من مجموعة البيانات مثل الاسم وعنوان البريد الإلكتروني، ومشاركة جزء منها فقط. ويحدد النموذج الإحصائي للباحثين احتمال نجاح محاولة إعادة تحديد الهوية، حتى مع وجود مجموعة بيانات “غير مكتملة للغاية”.
على سبيل المثال، وفقًا لأداة عبر الإنترنت تدعم العرض التوضيحي، مع وجود نوع الجنس والحالة الزواجية وتاريخ الميلاد والرمز البريدي فقط، هناك فرصة بنسبة 86٪ لتحديد هوية الشخص بشكل صحيح في أي مجموعة من البيانات مجهولة المصدر.
وقال الدكتور إيف ألكساندر دي مونتجوي Yves-Alexandre de Montjoye، المؤلف الرئيسي للمقالة: “هذه معلومات شائعة جدًا في الشركات”، حيث تم تقدير نجاح إعادة تحديد الهوية في مجموعات البيانات غير المكتملة باستخدام النماذج التوليفية التي نشرت في مجلة Nature Communications. وفقًا لهذا المنشور ، تمت إعادة تعريف 99.98٪ من الأمريكيين بشكل صحيح في أي مجموعة بيانات مجهولة المصدر متوفرة باستخدام 15 خاصية فقط ، بما في ذلك العمر والجنس والحالة الزواجية.
المصدر : مجلة Nature Communications