تست تورینگ و ai 10 17

Pexels/Google Deepmind, CC BY-SA

در سال 1950، دانشمند کامپیوتر انگلیسی، آلن تورینگ، روشی تجربی برای پاسخ به این سوال پیشنهاد کرد: آیا ماشین ها می توانند فکر کنند؟ او پیشنهاد کرد که اگر یک انسان پس از پنج دقیقه بازجویی نتواند تشخیص دهد که آیا با یک دستگاه هوش مصنوعی (AI) صحبت می‌کند یا یک انسان دیگر، این نشان می‌دهد که هوش مصنوعی دارای هوشی شبیه انسان است.

اگرچه سیستم‌های هوش مصنوعی در طول زندگی‌اش با موفقیت در آزمون تورینگ فاصله داشتند، اما او این را حدس زد

«[…] در مدت پنجاه سال آینده، برنامه‌ریزی رایانه‌های […] برای وادار کردن آن‌ها به بازی تقلیدی به قدری خوب امکان‌پذیر خواهد بود که یک بازجو معمولی بیش از 70 درصد شانس شناسایی درست پس از پنج دقیقه را نداشته باشد. سوال کردن

امروز، بیش از 70 سال پس از پیشنهاد تورینگ، هیچ هوش مصنوعی نتوانسته است با انجام شرایط خاصی که وی بیان کرد، این آزمون را با موفقیت پشت سر بگذارد. با این وجود، همانطور که برخی از سرفصل ها بازتاب، چند سیستم کاملاً نزدیک شده اند.

یک آزمایش اخیر سه مدل زبان بزرگ، از جمله GPT-4 (فناوری هوش مصنوعی پشت ChatGPT) را آزمایش کرد. شرکت کنندگان دو دقیقه با شخص دیگری یا یک سیستم هوش مصنوعی چت کردند. از هوش مصنوعی خواسته شد تا اشتباهات املایی کوچکی مرتکب شود - و اگر آزمایشگر بیش از حد تهاجمی شد، آن را ترک کرد.


گرافیک اشتراک درونی


با این درخواست، هوش مصنوعی کار خوبی برای فریب دادن آزمایش کنندگان انجام داد. وقتی با یک ربات هوش مصنوعی جفت می‌شدند، آزمایش‌کنندگان فقط می‌توانستند در 60 درصد مواقع به درستی حدس بزنند که آیا با یک سیستم هوش مصنوعی صحبت می‌کنند یا خیر.

با توجه به پیشرفت سریعی که در طراحی سیستم‌های پردازش زبان طبیعی به دست آمده است، ممکن است طی چند سال آینده شاهد قبولی هوش مصنوعی در آزمون اصلی تورینگ باشیم.

اما آیا تقلید از انسان واقعاً آزمونی مؤثر برای هوش است؟ و اگر نه، برخی از معیارهای جایگزینی که ممکن است برای اندازه گیری قابلیت های هوش مصنوعی استفاده کنیم چیست؟

محدودیت های آزمون تورینگ

در حالی که یک سیستم با گذراندن آزمون تورینگ به ما می دهد برخی از شواهد هوشمندانه است، این آزمون یک آزمون تعیین کننده هوش نیست. یک مشکل این است که می تواند "منفی های کاذب" تولید کند.

مدل های بزرگ زبان امروزی اغلب به گونه ای طراحی شده اند که بلافاصله اعلام کنند که انسان نیستند. به عنوان مثال، وقتی از ChatGPT سؤالی می‌پرسید، اغلب پاسخ خود را با عبارت «به عنوان یک مدل زبان AI» پیش‌گفتار می‌کند. حتی اگر سیستم‌های هوش مصنوعی توانایی اساسی برای قبولی در آزمون تورینگ را داشته باشند، این نوع برنامه‌نویسی این توانایی را نادیده می‌گیرد.

این آزمایش همچنین انواع خاصی از "مثبت کاذب" را در معرض خطر قرار می دهد. به عنوان فیلسوف ند بلاک با اشاره به در مقاله‌ای در سال 1981، یک سیستم می‌تواند به سادگی با کدگذاری سخت با پاسخی شبیه انسان به هر ورودی ممکن، آزمون تورینگ را پشت سر بگذارد.

فراتر از آن، آزمون تورینگ به ویژه بر شناخت انسان تمرکز دارد. اگر شناخت هوش مصنوعی با شناخت انسان متفاوت باشد، یک بازجوی متخصص می‌تواند وظایفی را پیدا کند که در آن هوش مصنوعی و انسان در عملکرد متفاوت هستند.

تورینگ در مورد این مشکل نوشت:

این ایراد بسیار قوی است، اما حداقل می‌توانیم بگوییم که اگر، با این وجود، بتوان ماشینی ساخت که بازی تقلید را به طور رضایت‌بخش انجام دهد، نیازی نیست که از این اعتراض ناراحت شویم.

به عبارت دیگر، در حالی که قبولی در آزمون تورینگ شواهد خوبی برای هوشمند بودن یک سیستم است، اما عدم موفقیت در آن دلیل خوبی برای هوشمند بودن یک سیستم نیست. نه باهوش.

علاوه بر این، این آزمایش معیار خوبی برای سنجش هوشیاری هوش مصنوعی، احساس درد و لذت، یا داشتن اهمیت اخلاقی نیست. به گفته بسیاری از دانشمندان علوم شناختی، هوشیاری شامل مجموعه خاصی از توانایی‌های ذهنی است، از جمله داشتن حافظه فعال، افکار مرتبه بالاتر، و توانایی درک محیط و مدل‌سازی نحوه حرکت بدن در اطراف آن.

تست تورینگ به این سوال که آیا سیستم های هوش مصنوعی یا خیر پاسخ نمی دهد این توانایی ها را دارند.

قابلیت های در حال رشد هوش مصنوعی

آزمون تورینگ مبتنی بر منطق خاصی است. یعنی: انسان‌ها باهوش هستند، بنابراین هر چیزی که بتواند به طور مؤثر از انسان تقلید کند، احتمالاً باهوش است.

اما این ایده چیزی در مورد ماهیت هوش به ما نمی گوید. روشی متفاوت برای اندازه گیری هوش هوش مصنوعی شامل تفکر انتقادی تر در مورد اینکه هوش چیست.

در حال حاضر هیچ آزمایش واحدی وجود ندارد که بتواند هوش مصنوعی یا انسانی را به طور معتبر اندازه گیری کند.

در گسترده‌ترین سطح، می‌توانیم هوش را به عنوان توانایی برای دستیابی به طیف وسیعی از اهداف در محیط های مختلف. سیستم‌های هوشمندتر سیستم‌هایی هستند که می‌توانند به طیف وسیع‌تری از اهداف در طیف وسیع‌تری از محیط‌ها دست یابند.

به این ترتیب، بهترین راه برای پیگیری پیشرفت‌ها در طراحی سیستم‌های هوش مصنوعی همه منظوره، ارزیابی عملکرد آنها در انواع وظایف است. محققان یادگیری ماشین طیفی از معیارها را ایجاد کرده اند که این کار را انجام می دهند.

به عنوان مثال، GPT-4 بود قادر به پاسخ صحیح 86 درصد سوالات در درک زبان چندوظیفه ای عظیم - معیاری برای سنجش عملکرد در آزمون های چند گزینه ای در طیف وسیعی از موضوعات دانشگاهی در سطح دانشگاه.

در این بازی نیز امتیاز مثبتی کسب کرد AgentBenchابزاری است که می‌تواند توانایی یک مدل زبان بزرگ را برای رفتار به عنوان نماینده، مثلاً با مرور وب، خرید محصولات آنلاین و رقابت در بازی‌ها اندازه‌گیری کند.

آیا آزمون تورینگ همچنان مرتبط است؟

تست تورینگ معیاری برای تقلید - توانایی هوش مصنوعی برای شبیه سازی رفتار انسان است. مدل‌های زبان بزرگ تقلیدکنندگان خبره هستند، که اکنون در پتانسیل آنها برای قبولی در آزمون تورینگ منعکس شده است. اما هوش با تقلید یکی نیست.

به تعداد اهدافی که برای دستیابی وجود دارد، انواع هوش وجود دارد. بهترین راه برای درک هوش AI، نظارت بر پیشرفت آن در توسعه طیف وسیعی از قابلیت‌های مهم است.

در عین حال، مهم است که در مورد هوشمند بودن هوش مصنوعی به «تغییر تیرک‌های دروازه» ادامه ندهیم. از آنجایی که قابلیت‌های هوش مصنوعی به سرعت در حال بهبود است، منتقدان ایده هوش مصنوعی دائماً در حال یافتن وظایف جدیدی هستند که سیستم‌های هوش مصنوعی ممکن است برای تکمیل آن با مشکل مواجه شوند – فقط برای اینکه متوجه شوند که از آن‌ها عبور کرده‌اند. یک مانع دیگر.

در این تنظیمات، سوال مربوطه این نیست که آیا سیستم‌های هوش مصنوعی هوشمند هستند یا خیر - بلکه به طور دقیق‌تر، چه چیزی انواع از هوشی که ممکن است داشته باشند.گفتگو

سیمون گلدشتاین، دانشیار موسسه فلسفه دایانویا، دانشگاه کاتولیک استرالیا، دانشگاه کاتولیک استرالیا و کامرون دومنیکو کرک جیانینی، استادیار فلسفه، دانشگاه راتگرز

این مقاله از مجله منتشر شده است گفتگو تحت مجوز Creative Commons دفعات بازدید: مقاله.