چگونه دوستان شما در توییتر ممکن است شما را ناشناس نگذارند

همانطور که شما اینترنت را مرور می کنید، تبلیغ کنندگان آنلاین پیگیری می کنند تقریبا هر سایت بازدید می کنید، جمع آوری اطلاعاتی در مورد عادت ها و ترجیحات شما. هنگامی که شما از یک سایت خبری بازدید می کنید، ممکن است شما طرفدار بسکتبال، اپرا و رمان های رمز و راز باشید، و به این ترتیب، آگهی های متناسب با سلیقه خود را انتخاب کنید.

تبلیغکنندگان از این اطلاعات برای ایجاد تجربیات بسیار شخصی استفاده میکنند اما معمولا نمیدانند دقیقا چه کسی هستند. آنها فقط دنباله دیجیتال خود را، نه خود هویت خود، مشاهده می کنند، بنابراین ممکن است احساس کنید که شما دارای نام ناشناسی بوده اید.

اما، در یک مقاله من همکاری کردم با Ansh Shukla، Sharad Goel و Arvind Narayanan، ما نشان می دهیم که این پرونده های مرور ناشناس وب در واقع می تواند به اغلب هویت های دنیای واقعی وابسته شود.

برای آزمایش رویکرد ما، ما ساخته ایم یک وب سایت جایی که مردم می توانند سابقه مرور خود را برای اهداف این مطالعه اهدا کنند. سپس سعی کردیم ببینیم آیا می توانیم تاریخ خود را به پروفایل توییتر خود متصل کنیم، فقط با استفاده از داده های موجود در دسترس عموم. هفتاد و دو درصد از افرادی که ما سعی در نامگذاری آن داشتیم، به عنوان کاندیدای برتر در نتایج جستجو به درستی شناسایی شدیم، و 81 درصد از میان نامزدین برتر 15 بود.

privacy2 2 8تصاویری از وب سایت deanonymization.

این به معرفت ما بزرگترین تظاهرات نامعلوم سازی تا به امروز است، زیرا کاربر صحیح را از صدها میلیون کاربر ممکن استفاده می کند. علاوه بر این، روش ما تنها نیاز به این دارد که یک فرد روی پیوندهای موجود در رسانههای اجتماعی خود کلیک کند، نه اینکه آنها محتوایی را ارسال کنند؛ بنابراین حتی افرادی که درباره آنچه که در اینترنت به اشتراک میگذارند دقت دارند، هنوز به این حمله آسیبپذیرند.


گرافیک اشتراک درونی


چگونه کار می کند

در سطح بالایی، رویکرد ما مبتنی بر مشاهدات ساده است. هر فرد یک شبکه اجتماعی بسیار متمایز دارد که شامل خانواده و دوستان از مدرسه، کار و مراحل مختلف زندگی است. به عنوان یک نتیجه، مجموعه ای از لینک ها در فیس بوک و توییتر شما تغذیه بسیار متمایز است. با کلیک بر روی این لینک ها یک علامت افشای در سابقه مرور خود می شود.

با نگاه کردن به مجموعه ای از صفحات وب شخصی که بازدید کرده اید، ما توانستیم فید های رسانه های اجتماعی مشابه را انتخاب کنیم و لیستی از کاندیداها را که احتمالا این سابقه مرور وب را ایجاد کرده اند، انتخاب کنیم. به این ترتیب، ما می توانیم هویت واقعی دنیای شخص را به مجموعه ای کامل از پیوندهایی که بازدید کرده ایم متصل کنیم، از جمله پیوندهای که هرگز در سایت رسانه های اجتماعی منتشر نشده است.

انجام این استراتژی شامل دو چالش اصلی می شود. اولین تئوری است: چطور می توان میزان اشتراک یک رسانه خاص اجتماعی را با یک تاریخ مرور وب مشخص کرد؟ یک روش ساده این است که کسری از لینک ها را در سابقه مرور که همچنین در خوراک نشان داده می شود اندازه گیری کنید. این کار به طور قابل توجهی در عمل کار می کند، اما برای فید های بزرگ، شباهت زیادی را از دست می دهد، زیرا آنها به سادگی پیوندهای بیشتری دارند. ما به جای یک رویکرد جایگزین رو به رو هستیم. ما یک مدل متنی احتمالا از رفتار مرور وب ارائه می دهیم و سپس احتمال احتمال اینکه یک کاربر با آن رسانه اجتماعی ایجاد شده، تاریخچه مرور مشاهده شده را محاسبه کند. سپس ما رسانه های اجتماعی را که بیشتر احتمال دارد انتخاب می کنیم.

چالش دوم شامل شناسایی فید های مشابه در زمان واقعی است. در اینجا ما به توییتر تبدیل می شویم، زیرا خوراک توییتر (برخلاف فیس بوک) عمدتا عمومی است. با این حال، حتی اگر فیدرها عمومی هستند، ما نمیتوانیم یک کپی محلی از توییتر ایجاد کنیم که در آن می توانیم پرسشهایمان را اجرا کنیم. در عوض ما مجموعه ای از تکنیک ها را به طور چشمگیری کاهش می دهیم. سپس ما تکنیک های ذخیره سازی را با استفاده از سرویس های درخواستی تقسیم می کنیم تا بتوانیم منابع بیشتری از نامزدهای امیدوار کننده را ایجاد کنیم. در این مجموعه کاندید کاهش یافته، برای اندازه گیری نتایج نهایی از معیار شباهت ما استفاده می کنیم. با توجه به سابقه مرور، می توانیم این فرایند را در زیر 60 ثانیه انجام دهیم.

روش ما دقیق تر برای کسانی است که توییتر را فعالانه مرور می کنند. نود درصد شرکتکنندگان که روی 100 یا لینکهای بیشتری در توییتر کلیک کردهاند میتوانند با هویت خود همخوانی داشته باشند.

بسیاری از شرکت ها دارای منابع ردیابی برای انجام حمله مانند این، حتی بدون رضایت شرکت کننده. ما تلاش کردیم که هر یک از شرکتکنندگان آزمایشی خود را با استفاده از تنها بخشهایی از سابقه مرور خود که برای شرکتهای ردیابی خاص قابل مشاهده بود (به این دلیل که شرکت ها در این صفحات دنباله دار هستند)، قابل شناسایی بودند. ما دریافتیم که چندین شرکت دارای منابع برای شناسایی دقیق شرکت کنندگان بودند.

حریم خصوصی 2 8سایر مطالعات نامعلوم

چندین مطالعه دیگر از ردپای عمومی در دسترس برای استفاده از اطلاعات حساس غیرمجاز استفاده کرده اند.

شايد معروفترين مطالعات در اين خطوط انجام شده توسط Latanya Sweeney در دانشگاه هاروارد در 2002. او آن را کشف کرد 87 درصد آمریکایی ها به طور منحصر به فرد شناسایی شدند بر اساس ترکیبی از کد پستی خود، جنسیت و تاریخ تولد. این سه ویژگی در هر دو اطلاعات ثبت نام عمومی رای دهندگان (که برای دلار آمریکا 20 خریداری شد) و دادههای پزشکی ناشناس (که به طور گسترده ای توزیع شده بود، به این دلیل که مردم تصور می کردند که داده ها ناشناس هستند) در دسترس بود. با اتصال این منابع داده، او پرونده پزشکی والی ماساچوست را پیدا کرد.

در 2006، Netflix یک مسابقه را اجرا کرد برای بهبود کیفیت توصیه های فیلم خود. آنها یک مجموعه داده های ناشناس در رتبه بندی فیلم های افراد را منتشر کردند و $ 1 میلیون دلار به تیم ارائه دادند که می تواند الگوریتم توصیه خود را با 10 درصد بهبود بخشند. دانشمندان کامپیوتر Arvind Narayanan و ویتالی شماتیکوف متوجه شدم که فیلم هایی که تماشاگران تماشا می کردند خیلی متمایز بودند و اکثر افراد در مجموعه داده ها بر اساس یک زیر مجموعه کوچک از فیلم هایشان منحصر به فرد بودند. به عبارت دیگر، بر اساس انتخاب Netflix فیلم و بررسی IMDB، محققان توانستند تعیین کنند که کاربران Netflix در واقع چه کسانی بودند.

با افزایش رسانه های اجتماعی، افراد بیشتر و بیشتر اطلاعاتی را به اشتراک می گذارند که به نظر بی خطر است، اما در واقع اطلاعات شخصی زیادی را نشان می دهد. یک مطالعه به رهبری میچال کاسیسینسکی در دانشگاه کمبریج از فیس بوک برای پیش بینی مردم استفاده می کند گرایش جنسی، دیدگاه های سیاسی و ویژگی های شخصیتی.

تیم دیگری به رهبری گیلبرت وندراسکی در دانشگاه فناوری وین، یک ماشین "نامگذاری نشده" ایجاد کرد که نشان داد که کدام گروه ها در شبکه اجتماعی Xing شرکت داشتند و از آن برای کشف کردن افراد استفاده می کردند - از آنجا که گروه های شما بخشی از آنها هستند، اغلب به اندازه کافی برای شناسایی شما.

آنچه شما می توانید انجام دهید

بسیاری از این حملات برای محافظت در برابر حیله و تزویر هستند، مگر اینکه شما استفاده از اینترنت یا شرکت در زندگی عمومی را متوقف کنید.

حتی اگر شما از اینترنت استفاده نکنید، شرکت ها هنوز هم می توانند اطلاعات شما را جمع آوری کنند. اگر چند نفر از دوستان شما مخاطبین تلفن خود را به فیس بوک بفرستند، و شماره شما در همه فهرست تماس آنهاست، پس فیس بوک می تواند درباره شما پیش بینی کند، حتی اگر از خدمات خود استفاده نکنید.

بهترین راه برای دفاع در برابر الگوریتم های غیرمعمول مانند ما، محدود کردن مجموعه ای از افرادی است که به داده های مرور ناشناس خود دسترسی دارند. پسوند مرورگر مانند Ghostery ردیابی شخص ثالث را مسدود کنید این بدان معناست که حتی اگر شرکتی که وبسایت شما بازدید می کند بداند که شما از آنها بازدید می کنید، شرکت های تبلیغاتی که تبلیغات خود را در صفحه خود نشان می دهند قادر به جمع آوری داده های مرور و جمع آوری آن در چندین سایت نخواهند بود.

اگر شما یک وب مستر هستید، می توانید با محافظت از کاربران خود، با اجازه دادن به سایت خود با استفاده از سایت خود، محافظت کنید HTTPS. مرورگر با استفاده از HTTP، مهاجمان را قادر می سازد سابقه مرور خود را با خراب شدن ترافیک شبکه، به شما این امکان را می دهد تا این حمله را انجام دهید. بسیاری از وبسایتها قبلا به HTTPS تغییر کردهاند؛ هنگامی که ما آزمایشی نامتعارف ما را از منظر یک Sniffer ترافیک شبکه تکرار کردیم، تنها 31 درصد از شرکتکنندگان میتوانند نامگذاری شوند.

با این حال، بسیار کم است که می توانید برای محافظت از خودتان در برابر حملات غیرعملی به طور کلی انجام دهید و شاید بهترین مسیر برای تنظیم انتظارات شما باشد. در عصر دیجیتال هیچ چیز خصوصی نیست.

درباره نویسنده

جسیکا سو، Ph.D. دانشجو در استنفورد دانشگاه استنفورد

این مقاله در اصل در تاریخ منتشر شد گفتگو. دفعات بازدید: مقاله.

کتاب های مرتبط

at InnerSelf Market و آمازون