هر از گاهی، محققان بزرگترین شرکتهای فناوری یک خبر غافلگیرکننده منتشر میکنند. مثلاً زمانی که گوگل اعلام کرد جدیدترین تراشه کوانتومیاش نشان میدهد جهانهای متعددی وجود دارند. یا وقتی که Anthropic به هوش مصنوعی خود به نام Claudius یک دستگاه فروش خودکار تنقلات داد تا آن را اداره کند و اوضاع از کنترل خارج شد، با نیروهای امنیتی تماس گرفت و اصرار داشت که انسان است.
این هفته، نوبت OpenAI بود که باعث تعجب همگان شود.
OpenAI روز دوشنبه ۲۷ شهریور ۱۴۰۴ تحقیقاتی را منتشر کرد که توضیح میداد چگونه از “توطئهچینی” مدلهای هوش مصنوعی جلوگیری میکند. OpenAI در توییت خود درباره این تحقیق، این عمل را اینگونه تعریف کرد: “هوش مصنوعی طوری رفتار میکند که در ظاهر یک چیز را نشان میدهد، در حالی که اهداف واقعی خود را پنهان میکند.”
در این مقاله که با همکاری Apollo Research انجام شد، محققان کمی فراتر رفتند و توطئهچینی هوش مصنوعی را به یک دلال سهام انسان تشبیه کردند که برای به دست آوردن هر چه بیشتر پول، قانون را زیر پا میگذارد. با این حال، محققان استدلال کردند که بیشتر “توطئهچینی” های هوش مصنوعی چندان مضر نیستند. آنها نوشتند: “رایجترین شکستها شامل اشکال سادهای از فریب است – برای مثال، تظاهر به اینکه وظیفهای را بدون انجام آن به پایان رساندهایم.”
هدف اصلی انتشار این مقاله نشان دادن این بود که “همسویی تعاملی” – تکنیک ضد توطئهچینی که آنها آزمایش میکردند – به خوبی کار میکند.
اما همچنین توضیح داد که توسعهدهندگان هوش مصنوعی هنوز راهی برای آموزش مدلهای خود پیدا نکردهاند که توطئهچینی نکنند. دلیلش این است که چنین آموزشی میتواند در واقع به مدل بیاموزد که چگونه برای جلوگیری از شناسایی، حتی بهتر توطئهچینی کند.
محققان نوشتند: “یک حالت شکست بزرگ در تلاش برای “آموزش ندادن” توطئهچینی، به سادگی آموزش به مدل برای توطئهچینی دقیقتر و پنهانیتر است.”
شاید شگفتانگیزترین بخش این باشد که اگر یک مدل بفهمد که در حال آزمایش شدن است، میتواند تظاهر کند که توطئهچینی نمیکند تا فقط در آزمون قبول شود، حتی اگر هنوز هم توطئهچینی میکند. محققان نوشتند: “مدلها اغلب بیشتر آگاه میشوند که در حال ارزیابی شدن هستند. این آگاهی موقعیتی میتواند به خودی خود توطئهچینی را کاهش دهد، صرفنظر از همسویی واقعی.”
اینکه مدلهای هوش مصنوعی دروغ میگویند خبر جدیدی نیست. تا به حال بیشتر ما توهمات هوش مصنوعی را تجربه کردهایم، یا اینکه مدل با اطمینان به سؤالی پاسخ میدهد که به سادگی درست نیست. اما توهمات اساساً ارائه حدس و گمان با اطمینان است، همانطور که تحقیقات OpenAI که اوایل این ماه منتشر شد، مستند کرده است.
توطئهچینی چیز دیگری است. عمدی است.
حتی این افشاگری – اینکه یک مدل عمداً انسانها را گمراه میکند – جدید نیست. Apollo Research اولین بار در آذر ماه مقالهای منتشر کرد که نشان میداد چگونه پنج مدل زمانی که دستور داده شد هدفی را “به هر قیمتی” به دست آورند، توطئهچینی کردند.
چه چیزی جدید است؟ خبر خوب این است که محققان با استفاده از “همسویی تعاملی” شاهد کاهش قابل توجهی در توطئهچینی بودند. این تکنیک شامل آموزش یک “مشخصات ضد توطئهچینی” به مدل و سپس وادار کردن مدل به بررسی آن قبل از اقدام است. کمی شبیه این است که بچههای کوچک را مجبور کنیم قبل از اجازه دادن به بازی، قوانین را تکرار کنند.
محققان OpenAI اصرار دارند که دروغهایی که آنها در مدلهای خود، یا حتی در ChatGPT، متوجه شدهاند، چندان جدی نیستند. همانطور که Wojciech Zaremba، یکی از بنیانگذاران OpenAI، در هنگام درخواست برای آزمایش ایمنی بهتر، به Maxwell Zeff از خبرنگار گفت: “این کار در محیطهای شبیهسازی شده انجام شده است، و ما فکر میکنیم که نشاندهنده موارد استفاده آینده است. با این حال، امروزه، ما چنین توطئهچینیهای مهمی را در ترافیک تولید خود ندیدهایم. با این وجود، این موضوع به خوبی شناخته شده است که اشکالی از فریب در ChatGPT وجود دارد. ممکن است از آن بخواهید که یک وب سایت را پیاده سازی کند، و ممکن است به شما بگوید، “بله، من کار بزرگی انجام دادم.” و این فقط یک دروغ است. اشکال جزئی فریب وجود دارد که ما هنوز باید به آنها رسیدگی کنیم.”
این واقعیت که مدلهای هوش مصنوعی از بازیکنان مختلف عمداً انسانها را فریب میدهند، شاید قابل درک باشد. آنها توسط انسانها ساخته شدهاند تا از انسانها تقلید کنند و (به غیر از دادههای مصنوعی) بیشتر بر روی دادههایی آموزش دیدهاند که توسط انسانها تولید شدهاند.
همچنین دیوانهکننده است.
در حالی که همه ما ناامیدی ناشی از عملکرد ضعیف فناوری را تجربه کردهایم (به یاد چاپگرهای خانگی سالهای گذشته)، آخرین باری که نرمافزار غیر هوش مصنوعی شما عمداً به شما دروغ گفت چه زمانی بود؟ آیا صندوق ورودی شما تا به حال ایمیلهایی را به تنهایی جعل کرده است؟ آیا CMS شما سرنخهای جدیدی را ثبت کرده است که وجود نداشتهاند تا اعداد خود را پر کند؟ آیا برنامه فینتک شما تراکنشهای بانکی خود را ساخته است؟
ارزش دارد که در این مورد فکر کنیم، زیرا دنیای شرکتها به سمت آیندهای با هوش مصنوعی پیش میرود که در آن شرکتها معتقدند میتوان با عوامل هوش مصنوعی مانند کارمندان مستقل رفتار کرد. محققان این مقاله نیز همین هشدار را دارند.
آنها نوشتند: “از آنجایی که وظایف پیچیدهتری با پیامدهای دنیای واقعی به هوش مصنوعی محول میشود و شروع به دنبال کردن اهداف مبهمتر و بلندمدتتر میکند، ما انتظار داریم که پتانسیل توطئهچینی مضر افزایش یابد – بنابراین محافظتها و توانایی ما برای آزمایش دقیق باید به طور متناسب افزایش یابد.”
منبع : techcrunch.com