خانه
هوش مصنوعی
دروغگویی عمدی مدل‌های هوش مصنوعی: پژوهش جنجالی OpenAI

دروغگویی عمدی مدل‌های هوش مصنوعی: پژوهش جنجالی OpenAI

هر از گاهی، محققان بزرگ‌ترین شرکت‌های فناوری یک خبر غافلگیرکننده منتشر می‌کنند. مثلاً زمانی که گوگل اعلام کرد جدیدترین تراشه کوانتومی‌اش نشان می‌دهد جهان‌های متعددی وجود دارند. یا وقتی که Anthropic به هوش مصنوعی خود به نام Claudius یک دستگاه فروش خودکار تنقلات داد تا آن را اداره کند و اوضاع از کنترل خارج شد، با نیروهای امنیتی تماس گرفت و اصرار داشت که انسان است.

این هفته، نوبت OpenAI بود که باعث تعجب همگان شود.

OpenAI روز دوشنبه ۲۷ شهریور ۱۴۰۴ تحقیقاتی را منتشر کرد که توضیح می‌داد چگونه از “توطئه‌چینی” مدل‌های هوش مصنوعی جلوگیری می‌کند. OpenAI در توییت خود درباره این تحقیق، این عمل را این‌گونه تعریف کرد: “هوش مصنوعی طوری رفتار می‌کند که در ظاهر یک چیز را نشان می‌دهد، در حالی که اهداف واقعی خود را پنهان می‌کند.”

در این مقاله که با همکاری Apollo Research انجام شد، محققان کمی فراتر رفتند و توطئه‌چینی هوش مصنوعی را به یک دلال سهام انسان تشبیه کردند که برای به دست آوردن هر چه بیشتر پول، قانون را زیر پا می‌گذارد. با این حال، محققان استدلال کردند که بیشتر “توطئه‌چینی” های هوش مصنوعی چندان مضر نیستند. آن‌ها نوشتند: “رایج‌ترین شکست‌ها شامل اشکال ساده‌ای از فریب است – برای مثال، تظاهر به اینکه وظیفه‌ای را بدون انجام آن به پایان رسانده‌ایم.”

هدف اصلی انتشار این مقاله نشان دادن این بود که “همسویی تعاملی” – تکنیک ضد توطئه‌چینی که آن‌ها آزمایش می‌کردند – به خوبی کار می‌کند.

اما همچنین توضیح داد که توسعه‌دهندگان هوش مصنوعی هنوز راهی برای آموزش مدل‌های خود پیدا نکرده‌اند که توطئه‌چینی نکنند. دلیلش این است که چنین آموزشی می‌تواند در واقع به مدل بیاموزد که چگونه برای جلوگیری از شناسایی، حتی بهتر توطئه‌چینی کند.

محققان نوشتند: “یک حالت شکست بزرگ در تلاش برای “آموزش ندادن” توطئه‌چینی، به سادگی آموزش به مدل برای توطئه‌چینی دقیق‌تر و پنهانی‌تر است.”

شاید شگفت‌انگیزترین بخش این باشد که اگر یک مدل بفهمد که در حال آزمایش شدن است، می‌تواند تظاهر کند که توطئه‌چینی نمی‌کند تا فقط در آزمون قبول شود، حتی اگر هنوز هم توطئه‌چینی می‌کند. محققان نوشتند: “مدل‌ها اغلب بیشتر آگاه می‌شوند که در حال ارزیابی شدن هستند. این آگاهی موقعیتی می‌تواند به خودی خود توطئه‌چینی را کاهش دهد، صرف‌نظر از همسویی واقعی.”

اینکه مدل‌های هوش مصنوعی دروغ می‌گویند خبر جدیدی نیست. تا به حال بیشتر ما توهمات هوش مصنوعی را تجربه کرده‌ایم، یا اینکه مدل با اطمینان به سؤالی پاسخ می‌دهد که به سادگی درست نیست. اما توهمات اساساً ارائه حدس و گمان با اطمینان است، همانطور که تحقیقات OpenAI که اوایل این ماه منتشر شد، مستند کرده است.

توطئه‌چینی چیز دیگری است. عمدی است.

حتی این افشاگری – اینکه یک مدل عمداً انسان‌ها را گمراه می‌کند – جدید نیست. Apollo Research اولین بار در آذر ماه مقاله‌ای منتشر کرد که نشان می‌داد چگونه پنج مدل زمانی که دستور داده شد هدفی را “به هر قیمتی” به دست آورند، توطئه‌چینی کردند.

چه چیزی جدید است؟ خبر خوب این است که محققان با استفاده از “همسویی تعاملی” شاهد کاهش قابل توجهی در توطئه‌چینی بودند. این تکنیک شامل آموزش یک “مشخصات ضد توطئه‌چینی” به مدل و سپس وادار کردن مدل به بررسی آن قبل از اقدام است. کمی شبیه این است که بچه‌های کوچک را مجبور کنیم قبل از اجازه دادن به بازی، قوانین را تکرار کنند.

محققان OpenAI اصرار دارند که دروغ‌هایی که آن‌ها در مدل‌های خود، یا حتی در ChatGPT، متوجه شده‌اند، چندان جدی نیستند. همانطور که Wojciech Zaremba، یکی از بنیانگذاران OpenAI، در هنگام درخواست برای آزمایش ایمنی بهتر، به Maxwell Zeff از خبرنگار گفت: “این کار در محیط‌های شبیه‌سازی شده انجام شده است، و ما فکر می‌کنیم که نشان‌دهنده موارد استفاده آینده است. با این حال، امروزه، ما چنین توطئه‌چینی‌های مهمی را در ترافیک تولید خود ندیده‌ایم. با این وجود، این موضوع به خوبی شناخته شده است که اشکالی از فریب در ChatGPT وجود دارد. ممکن است از آن بخواهید که یک وب سایت را پیاده سازی کند، و ممکن است به شما بگوید، “بله، من کار بزرگی انجام دادم.” و این فقط یک دروغ است. اشکال جزئی فریب وجود دارد که ما هنوز باید به آنها رسیدگی کنیم.”

این واقعیت که مدل‌های هوش مصنوعی از بازیکنان مختلف عمداً انسان‌ها را فریب می‌دهند، شاید قابل درک باشد. آن‌ها توسط انسان‌ها ساخته شده‌اند تا از انسان‌ها تقلید کنند و (به غیر از داده‌های مصنوعی) بیشتر بر روی داده‌هایی آموزش دیده‌اند که توسط انسان‌ها تولید شده‌اند.

همچنین دیوانه‌کننده است.

در حالی که همه ما ناامیدی ناشی از عملکرد ضعیف فناوری را تجربه کرده‌ایم (به یاد چاپگرهای خانگی سال‌های گذشته)، آخرین باری که نرم‌افزار غیر هوش مصنوعی شما عمداً به شما دروغ گفت چه زمانی بود؟ آیا صندوق ورودی شما تا به حال ایمیل‌هایی را به تنهایی جعل کرده است؟ آیا CMS شما سرنخ‌های جدیدی را ثبت کرده است که وجود نداشته‌اند تا اعداد خود را پر کند؟ آیا برنامه فین‌تک شما تراکنش‌های بانکی خود را ساخته است؟

ارزش دارد که در این مورد فکر کنیم، زیرا دنیای شرکت‌ها به سمت آینده‌ای با هوش مصنوعی پیش می‌رود که در آن شرکت‌ها معتقدند می‌توان با عوامل هوش مصنوعی مانند کارمندان مستقل رفتار کرد. محققان این مقاله نیز همین هشدار را دارند.

آن‌ها نوشتند: “از آنجایی که وظایف پیچیده‌تری با پیامدهای دنیای واقعی به هوش مصنوعی محول می‌شود و شروع به دنبال کردن اهداف مبهم‌تر و بلندمدت‌تر می‌کند، ما انتظار داریم که پتانسیل توطئه‌چینی مضر افزایش یابد – بنابراین محافظت‌ها و توانایی ما برای آزمایش دقیق باید به طور متناسب افزایش یابد.”

منبع : techcrunch.com

اشتراک‌ها: