چگونه مدل هدف قرار دادن فیس بوک کمبریج Analytica واقعا کار کرده استچقدر دقیق می توانید به صورت آنلاین وارد شوید؟ اندرو Krasovitckii / Shutterstock.com

محقق که کارش در مرکز است تجزیه و تحلیل اطلاعات فیس بوک کمبریج تجزیه و تحلیل و تحریک سیاسی سیاسی نشان داده است که روش او بسیار شبیه به آن کار می کرد Netflix برای توصیه فیلم ها استفاده می کند.

Aleksandar Kogan، محقق دانشگاه کمبریج در یک ایمیل به من توضیح داد که چگونه مدل آماری خود اطلاعات فیس بوک را برای Cambridge Analtica پردازش کرد. دقت او ادعا می کند که در مورد آن نیز کار می کند روش های رای گیری هدفمند را ایجاد کرد بر اساس جمعیت شناسی مانند نژاد، سن و جنس.

اگر تایید شود، حساب Kogan به معنی مدل سازی دیجیتال Cambridge Analtica بود به سختی توپ بلوری مجازی چند نفر ادعا کرده اند. با این حال اعداد Kogan فراهم می کند همچنین نشان می دهد چه چیزی - و نه - در واقع ممکن است by ترکیب اطلاعات شخصی با یادگیری ماشین برای اهداف سیاسی.

با این حال، با توجه به یک نگرانی عمومی، تعداد Kogan نشان می دهد که اطلاعات در مورد شخصیت های کاربران و یا "روانشناسی"فقط بخش کوچکی از چگونگی مدل هدف شهروندان بود. این یک مدل شخصیتی بود که به شدت حرف می زد، بلکه یکی از آن موارد بود که جمعیت شناسی، تأثیرات اجتماعی، شخصیت و هر چیز دیگری را به یک توده وابسته بزرگ تبدیل کرد. به نظر میرسد این رویکرد رویکرد جذب کردن و همبستگی و ارتباط آن شخصیت ابزار مبارزاتی ارزشمندی ایجاد کرده است، حتی اگر محصولی که فروخته می شود، کاملا به صورت صورتحساب نباشد.


گرافیک اشتراک درونی


وعده شخصیت هدف گیری

در پی آشکاراتی که کمپانی Analtica از کمپانی کمپانی Trump استفاده می کرد داده های 50 میلیون کاربر فیس بوک برای تبلیغ تبلیغات سیاسی دیجیتال در طول انتخابات ریاست جمهوری 2016، فیس بوک است میلیاردها دلار از ارزش بازار سهام را از دست داد، دولت ها در هر دو طرف اقیانوس اطلس داشته باشد تحقیقات باز شده است، و یک نوادگان حرکت اجتماعی از کاربران خواست تا #DeleteFacebook.

اما یک سوال کلیدی بدون پاسخ باقی مانده است: آیا کمبریج Analytica واقعا قادر بود به طور موثر پیام های مبارزات انتخاباتی را به شهروندان بر اساس ویژگی های شخصیت خود و یا حتی "شیاطین داخلی، "به عنوان یک شرکت سند اطلاع داد؟

اگر کسی می دانست چه کمبریج آنالیتیکا با اطلاعات گسترده ای از اطلاعات فیس بوک در اختیار دارد، آن ها خواهند بود Aleksandr Kogan و Joseph Chanclor. بود تحقیقات علمی جهانی شروع به کار می کنند اطلاعات پروفایل را از اطلاعات جمع آوری کرد کاربران فیس بوک 270,000 و ده ها میلیون نفر از دوستان خود با استفاده از یک برنامه آزمون شخصیت به نام "thisisyourdigitallife".

بخشی از تحقیق خودم تمرکز بر درک فراگیری ماشین روش ها و کتاب آینده من بحث می کند که چگونه شرکت های دیجیتال از مدل های توصیه شده برای ساختن مخاطبان استفاده می کنند. من در مورد چگونگی مدل Kogan و Chancellor مشغول به کار بودم.

بنابراین من به Kogan ایمیل فرستادم تا بپرسم. Kogan هنوز یک است محقق در دانشگاه کمبریج؛ همکار او هیئت مدیره در حال حاضر در فیس بوک کار می کند. Kogan پاسخ داد: در نمایش قابل توجهی از حسن نیت آموزشی دانشگاهی.

پاسخ او نیاز به برخی از بازپاک کردن و برخی پس زمینه دارد.

از جایزه Netflix به "روان سنجی"

بازگشت به 2006، زمانی که هنوز یک شرکت دی وی دی پست بود، Netflix ارائه داد پاداش از $ 1 میلیون به هر کسی که راه بهتر برای پیش بینی در مورد رتبه بندی فیلم های کاربران از شرکت پیش از آن ساخته شده است. یک رقیب برتر تعجب آور بود مستقل از توسعه دهنده نرم افزار با استفاده از نام مستعار سیمون فانککه رویکرد اصلی آن در نهایت در همه نوشته های تیم های برتر ثبت شده بود. فانک یک تکنیک به نام "تجزیه مقدار منفرد، "رتبه بندی کاربران فیلم ها را به a سری عوامل یا اجزاء - اساسا مجموعه ای از دسته های اشاره شده، رتبه بندی شده توسط اهمیت. به عنوان فانک در پست وبلاگ توضیح داده شد,

بنابراین، به عنوان مثال، یک دسته ممکن است نمایشی از فیلم های عمل کنند، با فیلم هایی با کارایی بالا در بالای صفحه و فیلم های آهسته در پایین، و به همین ترتیب کاربران که فیلم های اکشن در بالای صفحه را دوست دارند و افرادی که فیلم های آهسته تر را در پایین. "

عوامل فاکتورهای مصنوعی هستند که همیشه مثل نوعی از دسته های انسان نیستند. این مهم ترین عامل در مدل Netflix اولیه فانک توسط کاربرانی که فیلم هایی مانند "پرل هاربر" و "برنامه ریزه عروسی" را دوست داشتند و همچنین فیلم هایی مانند "Lost in Translation" یا "آفتاب ابدی ذهن بی نظیر" را دوست داشت، تعریف شده بود. مدل وی نشان داد چگونه یادگیری ماشین می تواند همبستگی بین گروه ها مردم و گروه های فیلم، که انسان ها هرگز نقطه ای نخواهند گذاشت.

رویکرد عمومی فانک از عوامل مهم 50 یا 100 برای هر دو کاربر و فیلم استفاده کرد تا حدس زده شود که چگونه هر کاربر هر فیلم را ارزیابی می کند. این روش، اغلب نامیده می شود کاهش ابعاد یا تقسیم بندی ماتریکس، جدید نبود. محققان علوم سیاسی نشان داده اند که تکنیک های مشابه با استفاده از رأی دادن داده ها می تواند آراء اعضای کنگره را با دقت 90 درصد پیش بینی کند. در روانشناسی "بزرگ پنج"مدل نیز برای پیش بینی رفتار با استفاده از خوشه بندی با هم سوالات شخصیت که تمایل به پاسخ به طور مشابه استفاده شده است.

با این حال، مدل فانک پیشرفت بزرگی بود: این تکنیک اجازه داد که با مجموعه داده های عظیم، حتی کسانی که اطلاعات زیادی از دست داده اند مانند مجموعه داده Netflix، که در آن یک کاربر معمولی چندین هزار فیلم را از هزاران نفر در شرکت ثبت کرده است، کار خوبی داشته است کتابخانه بیش از یک دهه پس از آنکه جایزه Netflix جایزه گرفت، روش های مبتنی بر SVD، یا مدل های مرتبط برای داده های ضمنیهنوز ابزار انتخابی بسیاری از وبسایتها برای پیش بینی آنچه کاربران خواندن، تماشا یا خرید می کنند، هنوز هستند.

این مدل ها می توانند چیزهای دیگری را نیز پیش بینی کنند.

فیس بوک می داند اگر شما یک جمهوری خواه هستید

در 2013، محققان دانشگاه کمبریج، میچل کاسیسکی، دیوید استیلول و ثور گرپل، مقاله ای در مورد قدرت پیش بینی اطلاعات فیس بوک، با استفاده از اطلاعات جمع آوری شده از طریق آزمون شخصیت آنلاین. تجزیه و تحلیل اولیه آنها تقریبا یکسان بود با استفاده از جایزه Netflix، با استفاده از SVD به دسته بندی هر دو کاربر و چیزهایی که آنها را دوست داشتند به عوامل بالا 100.

این مقاله نشان داد که یک مدل عامل با استفاده از فیس بوک "دوستداران" کاربران تنها بود 95 درصد دقیق در تقسیم بین پاسخگویان سیاه و سفید، 93 درصد دقیق در تشخیص مردان از زنان، و 88 درصد دقیق در تشخیص افرادی که به عنوان مردان همجنسگرا از مردان شناخته شده به عنوان مستقل است. این حتی می تواند به درستی متمایز جمهوری خواهان از دموکرات ها 85 درصد از زمان. این نیز مفید بود، اگرچه دقیق نیست، برای پیش بینی نمرات کاربران در آزمون شخصیت "بزرگ پنج".

وجود داشت اعتراض عمومی در پاسخ؛ فیس بوک در عرض چند هفته بود کاربران را دوست خصوصی ساخته است به صورت پیش فرض.

Kogan و Chancellor، همچنین محققان دانشگاه کمبریج در همان زمان، شروع به استفاده از داده های فیس بوک برای هدف گیری انتخاباتی به عنوان بخشی از همکاری با شرکت مادر مادر کمبریج Analytica SCL کردند. Kogan دعوت Kosinski و Stillwell برای پیوستن به پروژه خود، اما آن را کار نمی کرد. کوزینسکی گزارش کرد که Kogan و Chanclor مشکوک هستند معکوس طراحی فیس بوک "دوست" مدل برای کمبریج Analytica. کوگان این را انکار کرد، گفت پروژه او "تمام مدل های ما را ساخت با استفاده از داده های خود ما، جمع آوری شده با استفاده از نرم افزار خود ما. "

کگوان و صدراعظم واقعی چه کار کردند؟

همانطور که من به دنبال تحولات در داستان بودم، مشخص شد که Kogan و Chanclor در واقع از داده های خودشان از طریق برنامه thisisyourdigitallife جمع آوری کرده اند. آنها قطعا می توانستند مدل SVD پیش بینی شده ای مانند آنچه که در تحقیقات منتشر شده در کوزینسکی و استیلول نشان داده شده بود ساخته شده است.

بنابراین من به Kogan ایمیل فرستادم تا بپرسم آیا این کار او بود. تا حدودی به تعجب من، او نوشت.

او گفت: "ما دقیقا از SVD استفاده نکردیم." اشاره کرد که SVD می تواند مبارزه کند، در حالی که بعضی از کاربران "دوست" بیشتری دارند نسبت به دیگران. در عوض، کوگان توضیح داد، "روش چیزی است که ما در واقع خودمان بود ... این چیزی است که در مالکیت عمومی نیست." بدون رفتن به جزئیات، کوگان روش خود را به عنوان "یک چند مرحله توصیف همایش رویکرد."

با این حال، پیام خود را در رفت و به تایید می کنند که رویکرد خود را در واقع مشابه SVD یا روش های دیگر فاکتور ماتریس، مانند در رقابت جایزه Netflix بکشد بود، و مدل Kosinki-Stillwell-Graepel فیس بوک. کاهش ابعاد اطلاعات فیس بوک هسته ای از مدل او بود.

چقدر دقیق بود؟

Kogan پیشنهاد کرد که مدل دقیق استفاده شده مهم نیست، هرچند اهمیت دقت پیش بینی های آن است. با توجه به کوگان، به "همبستگی بین نمرات پیش بینی شده و واقعی ... در اطراف [درصد 30] برای همه ابعاد شخصیت بود.» در مقایسه، قبلی پنج نمرات فرد وجود دارند که در مورد 70 به 80 درصد دقیق در پیش بینی نمرات خود را هنگامی که آزمون را دوباره.

مطمئنا ادعاهای دقتی کوهان به طور مستقل تایید نمیشود. و هر کس در میان این رسوایی پررنگ ممکن است انگیزه ای برای کاهش نقش خود داشته باشد. در او ظاهر شدن در سی ان ان، Kogan توضیح داد: به اندرسون کوپر به طور فزاینده ای باور نکردنی است که، در واقع، مدل ها در واقع به خوبی کار نمی کرد.

{youtube}APqU_EJ5d3U{/youtube}

الکساندر کوانان در مورد CNN پاسخ می دهد.

در حقيقت، کتگن صحت ادعا به نظر مي رسد کمی کم، اما قابل قبول است. Kosinski، Stillwell و Graepel نتایج مشابه یا کمی بهتر را گزارش کرده اند، همانطور که چندین مورد نیز وجود دارد سایر مطالعات آکادمیک با استفاده از ردپاهای دیجیتال برای پیش بینی شخصیت (هرچند برخی از این مطالعات اطلاعات بیشتری نسبت به فیس بوک داشتند). جای تعجب است که کوگان و صدراعظم به مشکل از طراحی مدل اختصاصی خود اگر خارج از قفسه راه حل به نظر می رسد فقط به عنوان دقیق.

با این حال، مهم است که دقت مدل در نمرات شخصیت اجازه می دهد تا مقایسه نتایج Koogan با تحقیقات دیگر. مدل های منتشر شده با دقت معادل در پیش بینی شخصیت در حدس زدن جمعیت شناسی و متغیرهای سیاسی بسیار دقیق تر است.

به عنوان مثال، مدل Kosinski-Stillwell-Graepel SVD مشابه 85 درصد در حدس زدن وابستگی حزبی بود، حتی بدون استفاده از هر گونه اطلاعات مشخصات دیگر از دوست داشتن. مدل Kogan دقت مشابه یا بهتر داشت. حتی اضافه کردن مقدار کمی از اطلاعات مربوط به جمعیت یا دوستان دوستان کاربران احتمالا این دقت را بیش از 90 درصد افزایش می دهد. حدس زدن درباره جنسیت، نژاد، گرایش جنسی و سایر ویژگی ها احتمالا بیش از 90 درصد دقیق است.

به طور بحرانی، این حدس ها به ویژه برای کاربران فعال فیس بوک بسیار مناسب است - مردم این مدل در درجه اول برای هدف قرار دادند. کاربران با فعالیت کمتر برای تجزیه و تحلیل به احتمال زیاد در فیس بوک نیست به هر حال.

هنگامی که روانشناسان اغلب جمعیت شناسی هستند

دانستن اینکه چگونه این مدل ساخته شده است، به توضیحات ظاهرا متناقض کمبریج در مورد کمبریج کمک می کند نقش - یا فقدان آن - این ویژگی شخصیتی و روانشناسی در مدل سازی آن نقش دارند. همه آنها از لحاظ فنی سازگار با آنچه Kogan توصیف می کند.

یک مدل مانند Kogan برآوردهای برای هر متغیر موجود در هر گروه از کاربران را ارائه می دهد. این بدان معنی است که به طور خودکار برآورد نمره شخصیت بزرگ پنج برای هر رای دهنده. اما این نمرات شخصیت، خروجی مدل، نه ورودی است. تمام مدل می داند این است که برخی از فیس بوک ها را دوست دارد، و کاربران خاص، تمایل دارند با هم گروه بندی شوند.

با استفاده از این مدل، کمبریج Analytica می توان گفت که شناسایی افرادی با باز بودن کم برای تجربه و روان رنجورهای شدید است. اما همان مدل، با پیش بینی های دقیق برای هر کاربر، می تواند به درستی ادعا شود که شناسایی مردان تحصیل کرده با مردان مسن تر جمهوری خواه است.

اطلاعات Kogan نیز کمک می کند تا روشن شدن سردرگمی در مورد اینکه آیا کمبریج Analytica در واقع این کار را حذف کرد از اطلاعات فیس بوک، زمانی که مدل های ساخته شده از داده ها به نظر می رسد هنوز در گردش استو حتی بیشتر توسعه یافته است.

گفتگوکل نقطه یک مدل کاهش ابعاد، ریاضیات داده ها را در فرم ساده تر نشان می دهد. به نظر می رسد کمبریج Analytica یک عکس با وضوح بالا گرفته، اندازه آن را کوچکتر کرده و سپس اصل را حذف کرد. عکس هنوز هم وجود دارد - و تا زمانی که مدل Cambridge Analtica وجود دارد، داده ها به طور موثر نیز انجام می شود.

درباره نویسنده

متی هیندمن، دانشیار امور رسانه ها و امور عمومی، دانشگاه جورج واشنگتن

این مقاله در اصل در تاریخ منتشر شد گفتگو. دفعات بازدید: مقاله.

کتاب های مرتبط

at InnerSelf Market و آمازون