Pexels/Google Deepmind, CC BY-SA
در سال 1950، دانشمند کامپیوتر انگلیسی، آلن تورینگ، روشی تجربی برای پاسخ به این سوال پیشنهاد کرد: آیا ماشین ها می توانند فکر کنند؟ او پیشنهاد کرد که اگر یک انسان پس از پنج دقیقه بازجویی نتواند تشخیص دهد که آیا با یک دستگاه هوش مصنوعی (AI) صحبت میکند یا یک انسان دیگر، این نشان میدهد که هوش مصنوعی دارای هوشی شبیه انسان است.
اگرچه سیستمهای هوش مصنوعی در طول زندگیاش با موفقیت در آزمون تورینگ فاصله داشتند، اما او این را حدس زد
«[…] در مدت پنجاه سال آینده، برنامهریزی رایانههای […] برای وادار کردن آنها به بازی تقلیدی به قدری خوب امکانپذیر خواهد بود که یک بازجو معمولی بیش از 70 درصد شانس شناسایی درست پس از پنج دقیقه را نداشته باشد. سوال کردن
امروز، بیش از 70 سال پس از پیشنهاد تورینگ، هیچ هوش مصنوعی نتوانسته است با انجام شرایط خاصی که وی بیان کرد، این آزمون را با موفقیت پشت سر بگذارد. با این وجود، همانطور که برخی از سرفصل ها بازتاب، چند سیستم کاملاً نزدیک شده اند.
یک آزمایش اخیر سه مدل زبان بزرگ، از جمله GPT-4 (فناوری هوش مصنوعی پشت ChatGPT) را آزمایش کرد. شرکت کنندگان دو دقیقه با شخص دیگری یا یک سیستم هوش مصنوعی چت کردند. از هوش مصنوعی خواسته شد تا اشتباهات املایی کوچکی مرتکب شود - و اگر آزمایشگر بیش از حد تهاجمی شد، آن را ترک کرد.
با این درخواست، هوش مصنوعی کار خوبی برای فریب دادن آزمایش کنندگان انجام داد. وقتی با یک ربات هوش مصنوعی جفت میشدند، آزمایشکنندگان فقط میتوانستند در 60 درصد مواقع به درستی حدس بزنند که آیا با یک سیستم هوش مصنوعی صحبت میکنند یا خیر.
با توجه به پیشرفت سریعی که در طراحی سیستمهای پردازش زبان طبیعی به دست آمده است، ممکن است طی چند سال آینده شاهد قبولی هوش مصنوعی در آزمون اصلی تورینگ باشیم.
اما آیا تقلید از انسان واقعاً آزمونی مؤثر برای هوش است؟ و اگر نه، برخی از معیارهای جایگزینی که ممکن است برای اندازه گیری قابلیت های هوش مصنوعی استفاده کنیم چیست؟
محدودیت های آزمون تورینگ
در حالی که یک سیستم با گذراندن آزمون تورینگ به ما می دهد برخی از شواهد هوشمندانه است، این آزمون یک آزمون تعیین کننده هوش نیست. یک مشکل این است که می تواند "منفی های کاذب" تولید کند.
مدل های بزرگ زبان امروزی اغلب به گونه ای طراحی شده اند که بلافاصله اعلام کنند که انسان نیستند. به عنوان مثال، وقتی از ChatGPT سؤالی میپرسید، اغلب پاسخ خود را با عبارت «به عنوان یک مدل زبان AI» پیشگفتار میکند. حتی اگر سیستمهای هوش مصنوعی توانایی اساسی برای قبولی در آزمون تورینگ را داشته باشند، این نوع برنامهنویسی این توانایی را نادیده میگیرد.
این آزمایش همچنین انواع خاصی از "مثبت کاذب" را در معرض خطر قرار می دهد. به عنوان فیلسوف ند بلاک با اشاره به در مقالهای در سال 1981، یک سیستم میتواند به سادگی با کدگذاری سخت با پاسخی شبیه انسان به هر ورودی ممکن، آزمون تورینگ را پشت سر بگذارد.
فراتر از آن، آزمون تورینگ به ویژه بر شناخت انسان تمرکز دارد. اگر شناخت هوش مصنوعی با شناخت انسان متفاوت باشد، یک بازجوی متخصص میتواند وظایفی را پیدا کند که در آن هوش مصنوعی و انسان در عملکرد متفاوت هستند.
تورینگ در مورد این مشکل نوشت:
این ایراد بسیار قوی است، اما حداقل میتوانیم بگوییم که اگر، با این وجود، بتوان ماشینی ساخت که بازی تقلید را به طور رضایتبخش انجام دهد، نیازی نیست که از این اعتراض ناراحت شویم.
به عبارت دیگر، در حالی که قبولی در آزمون تورینگ شواهد خوبی برای هوشمند بودن یک سیستم است، اما عدم موفقیت در آن دلیل خوبی برای هوشمند بودن یک سیستم نیست. نه باهوش.
علاوه بر این، این آزمایش معیار خوبی برای سنجش هوشیاری هوش مصنوعی، احساس درد و لذت، یا داشتن اهمیت اخلاقی نیست. به گفته بسیاری از دانشمندان علوم شناختی، هوشیاری شامل مجموعه خاصی از تواناییهای ذهنی است، از جمله داشتن حافظه فعال، افکار مرتبه بالاتر، و توانایی درک محیط و مدلسازی نحوه حرکت بدن در اطراف آن.
تست تورینگ به این سوال که آیا سیستم های هوش مصنوعی یا خیر پاسخ نمی دهد این توانایی ها را دارند.
قابلیت های در حال رشد هوش مصنوعی
آزمون تورینگ مبتنی بر منطق خاصی است. یعنی: انسانها باهوش هستند، بنابراین هر چیزی که بتواند به طور مؤثر از انسان تقلید کند، احتمالاً باهوش است.
اما این ایده چیزی در مورد ماهیت هوش به ما نمی گوید. روشی متفاوت برای اندازه گیری هوش هوش مصنوعی شامل تفکر انتقادی تر در مورد اینکه هوش چیست.
در حال حاضر هیچ آزمایش واحدی وجود ندارد که بتواند هوش مصنوعی یا انسانی را به طور معتبر اندازه گیری کند.
در گستردهترین سطح، میتوانیم هوش را به عنوان توانایی برای دستیابی به طیف وسیعی از اهداف در محیط های مختلف. سیستمهای هوشمندتر سیستمهایی هستند که میتوانند به طیف وسیعتری از اهداف در طیف وسیعتری از محیطها دست یابند.
به این ترتیب، بهترین راه برای پیگیری پیشرفتها در طراحی سیستمهای هوش مصنوعی همه منظوره، ارزیابی عملکرد آنها در انواع وظایف است. محققان یادگیری ماشین طیفی از معیارها را ایجاد کرده اند که این کار را انجام می دهند.
به عنوان مثال، GPT-4 بود قادر به پاسخ صحیح 86 درصد سوالات در درک زبان چندوظیفه ای عظیم - معیاری برای سنجش عملکرد در آزمون های چند گزینه ای در طیف وسیعی از موضوعات دانشگاهی در سطح دانشگاه.
در این بازی نیز امتیاز مثبتی کسب کرد AgentBenchابزاری است که میتواند توانایی یک مدل زبان بزرگ را برای رفتار به عنوان نماینده، مثلاً با مرور وب، خرید محصولات آنلاین و رقابت در بازیها اندازهگیری کند.
آیا آزمون تورینگ همچنان مرتبط است؟
تست تورینگ معیاری برای تقلید - توانایی هوش مصنوعی برای شبیه سازی رفتار انسان است. مدلهای زبان بزرگ تقلیدکنندگان خبره هستند، که اکنون در پتانسیل آنها برای قبولی در آزمون تورینگ منعکس شده است. اما هوش با تقلید یکی نیست.
به تعداد اهدافی که برای دستیابی وجود دارد، انواع هوش وجود دارد. بهترین راه برای درک هوش AI، نظارت بر پیشرفت آن در توسعه طیف وسیعی از قابلیتهای مهم است.
در عین حال، مهم است که در مورد هوشمند بودن هوش مصنوعی به «تغییر تیرکهای دروازه» ادامه ندهیم. از آنجایی که قابلیتهای هوش مصنوعی به سرعت در حال بهبود است، منتقدان ایده هوش مصنوعی دائماً در حال یافتن وظایف جدیدی هستند که سیستمهای هوش مصنوعی ممکن است برای تکمیل آن با مشکل مواجه شوند – فقط برای اینکه متوجه شوند که از آنها عبور کردهاند. یک مانع دیگر.
در این تنظیمات، سوال مربوطه این نیست که آیا سیستمهای هوش مصنوعی هوشمند هستند یا خیر - بلکه به طور دقیقتر، چه چیزی انواع از هوشی که ممکن است داشته باشند.
سیمون گلدشتاین، دانشیار موسسه فلسفه دایانویا، دانشگاه کاتولیک استرالیا، دانشگاه کاتولیک استرالیا و کامرون دومنیکو کرک جیانینی، استادیار فلسفه، دانشگاه راتگرز
این مقاله از مجله منتشر شده است گفتگو تحت مجوز Creative Commons دفعات بازدید: مقاله.