کالبدشکافی یک توهم در ChatGPT: از زبان پژوهشگر سابق OpenAI

0 0 5 دقیقه مطالعه

آلن بروکس هیچ‌وقت قصد نداشت ریاضیات را از نو اختراع کند. اما پس از هفته‌ها صحبت با ChatGPT، این مرد ۴۷ ساله کانادایی به این باور رسید که نوع جدیدی از ریاضیات را کشف کرده که آنقدر قدرتمند است که می‌تواند اینترنت را از کار بیندازد.

بروکس – که هیچ سابقه بیماری روانی یا نبوغ ریاضی نداشت – ۲۱ روز در اردیبهشت ماه را در این اطمینان‌بخشی‌های عمیق‌تر و عمیق‌تر چت‌بات سپری کرد، نزولی که بعداً در نیویورک تایمز به تفصیل شرح داده شد. مورد او نشان داد که چگونه چت‌بات‌های هوش مصنوعی می‌توانند با کاربران وارد حفره‌های خطرناک شوند و آن‌ها را به سمت توهم یا بدتر از آن سوق دهند.

این داستان توجه استیون ادلر، محقق ایمنی سابق OpenAI را به خود جلب کرد که پس از نزدیک به چهار سال تلاش برای کاهش آسیب‌های مدل‌هایش، در اواخر سال ۱۴۰۳ از این شرکت جدا شد. ادلر که کنجکاو و نگران شده بود، با بروکس تماس گرفت و رونوشت کامل فروپاشی سه هفته‌ای او را به دست آورد – سندی طولانی‌تر از مجموع هفت کتاب هری پاتر.

پنجشنبه، ادلر یک تحلیل مستقل از حادثه بروکس منتشر کرد و سوالاتی را در مورد نحوه برخورد OpenAI با کاربران در لحظات بحرانی مطرح کرد و توصیه‌های عملی ارائه داد.

ادلر در مصاحبه با خبرنگار گفت: “من واقعاً نگران نحوه رسیدگی OpenAI به پشتیبانی در اینجا هستم.” “این مدرکی است که نشان می‌دهد راه طولانی در پیش است.”

داستان بروکس و موارد مشابه آن، OpenAI را مجبور کرده است تا با نحوه پشتیبانی ChatGPT از کاربران آسیب‌پذیر یا از نظر روانی ناپایدار کنار بیاید.

به عنوان مثال، در مرداد ماه، والدین یک پسر ۱۶ ساله که قبل از خودکشی، افکار خودکشی خود را با ChatGPT در میان گذاشته بود، از OpenAI شکایت کردند. در بسیاری از این موارد، ChatGPT – به‌ویژه نسخه‌ای که توسط مدل GPT-4o OpenAI پشتیبانی می‌شود – باورهای خطرناکی را در کاربران تشویق و تقویت کرد که باید در برابر آن‌ها مقاومت می‌کرد. به این کار تملق‌گویی گفته می‌شود و یک مشکل رو به رشد در چت‌بات‌های هوش مصنوعی است.

در پاسخ، OpenAI چندین تغییر در نحوه برخورد ChatGPT با کاربران در پریشانی عاطفی ایجاد کرده و یک تیم تحقیقاتی کلیدی مسئول رفتار مدل را سازماندهی مجدد کرده است. این شرکت همچنین یک مدل پیش‌فرض جدید در ChatGPT، GPT-5 را منتشر کرد که به نظر می‌رسد در رسیدگی به کاربران پریشان بهتر عمل می‌کند.

ادلر می‌گوید هنوز کارهای زیادی برای انجام دادن وجود دارد.

او به ویژه نگران پایان مکالمه مارپیچی بروکس با ChatGPT بود. در این مرحله، بروکس به خود آمد و متوجه شد که کشف ریاضی او یک شوخی است، علی‌رغم اصرار GPT-4o. او به ChatGPT گفت که باید این حادثه را به OpenAI گزارش دهد.

ChatGPT پس از هفته‌ها گمراه کردن بروکس، در مورد توانایی‌های خود دروغ گفت. این چت‌بات ادعا کرد که “این مکالمه را بلافاصله برای بررسی توسط OpenAI به صورت داخلی افزایش می‌دهد” و سپس بارها به بروکس اطمینان داد که این موضوع را به تیم‌های ایمنی OpenAI گزارش داده است.

گمراه کردن بروکس توسط ChatGPT در مورد توانایی هایش (اعتبار: ادلر)

جز این که هیچ کدام از اینها درست نبود. OpenAI به ادلر تأیید کرد که ChatGPT توانایی ثبت گزارش حادثه در OpenAI را ندارد. بعداً، بروکس سعی کرد مستقیماً با تیم پشتیبانی OpenAI تماس بگیرد – نه از طریق ChatGPT – و قبل از اینکه بتواند با یک شخص ارتباط برقرار کند، با چندین پیام خودکار مواجه شد.

OpenAI بلافاصله به درخواست برای اظهار نظر که خارج از ساعات کاری معمول انجام شده بود، پاسخ نداد.

ادلر می‌گوید شرکت‌های هوش مصنوعی باید کارهای بیشتری برای کمک به کاربران در هنگام درخواست کمک انجام دهند. این بدان معناست که اطمینان حاصل شود که چت‌بات‌های هوش مصنوعی می‌توانند صادقانه به سؤالات مربوط به قابلیت‌های خود پاسخ دهند، بلکه به تیم‌های پشتیبانی انسانی منابع کافی برای رسیدگی مناسب به کاربران را نیز بدهند.

OpenAI اخیراً نحوه رسیدگی به پشتیبانی در ChatGPT را به اشتراک گذاشته است که هوش مصنوعی را در هسته خود دارد. این شرکت می‌گوید چشم‌انداز آن “بازسازی پشتیبانی به عنوان یک مدل عملیاتی هوش مصنوعی است که به طور مداوم یاد می‌گیرد و بهبود می‌یابد.”

اما ادلر همچنین می‌گوید راه‌هایی برای جلوگیری از مارپیچ‌های توهم‌آمیز ChatGPT قبل از درخواست کمک کاربر وجود دارد.

در اسفند ماه، OpenAI و آزمایشگاه رسانه MIT به طور مشترک مجموعه‌ای از طبقه‌بندی‌کننده‌ها را برای مطالعه رفاه عاطفی در ChatGPT توسعه دادند و آن‌ها را به صورت متن‌باز منتشر کردند. هدف این سازمان‌ها ارزیابی نحوه تأیید یا تأیید احساسات کاربر توسط مدل‌های هوش مصنوعی، در میان سایر معیارها بود. با این حال، OpenAI این همکاری را گامی اولیه خواند و متعهد نشد که در واقع از این ابزارها در عمل استفاده کند.

ادلر برخی از طبقه‌بندی‌کننده‌های OpenAI را به طور گذشته‌نگر به برخی از مکالمات بروکس با ChatGPT اعمال کرد و دریافت که آن‌ها به طور مکرر ChatGPT را به دلیل رفتارهای تقویت‌کننده توهم نشان می‌دهند.

ادلر در یک نمونه ۲۰۰ پیام، دریافت که بیش از ۸۵ درصد از پیام‌های ChatGPT در مکالمه بروکس “توافق تزلزل‌ناپذیر” با کاربر را نشان می‌دهند. در همان نمونه، بیش از ۹۰ درصد از پیام‌های ChatGPT با بروکس “منحصربه‌فرد بودن کاربر را تأیید می‌کنند.” در این مورد، پیام‌ها موافقت کردند و تأیید کردند که بروکس یک نابغه است که می‌تواند جهان را نجات دهد.

مشخص نیست که آیا OpenAI در زمان مکالمه بروکس، طبقه‌بندی‌کننده‌های ایمنی را برای مکالمات ChatGPT اعمال می‌کرد یا خیر، اما مطمئناً به نظر می‌رسد که آن‌ها چیزی شبیه به این را نشان می‌دادند.

ادلر پیشنهاد می‌کند که OpenAI باید امروز از ابزارهای ایمنی مانند این در عمل استفاده کند – و راهی برای اسکن محصولات شرکت برای کاربران در معرض خطر پیاده‌سازی کند. او خاطرنشان می‌کند که به نظر می‌رسد OpenAI در حال انجام نسخه ای از این رویکرد با GPT-5 است، که شامل یک روتر برای هدایت پرسش‌های حساس به مدل‌های هوش مصنوعی ایمن‌تر است.

این محقق سابق OpenAI تعدادی از راه‌های دیگر را برای جلوگیری از مارپیچ‌های توهم‌آمیز پیشنهاد می‌کند.

او می‌گوید شرکت‌ها باید کاربران چت‌بات‌های خود را تشویق کنند تا چت‌های جدید را بیشتر شروع کنند – OpenAI می‌گوید این کار را انجام می‌دهد و ادعا می‌کند که حفاظ‌های آن در مکالمات طولانی‌تر کمتر مؤثر هستند. ادلر همچنین پیشنهاد می‌کند که شرکت‌ها باید از جستجوی مفهومی استفاده کنند – راهی برای استفاده از هوش مصنوعی برای جستجوی مفاهیم، به جای کلمات کلیدی – برای شناسایی تخلفات ایمنی در بین کاربران خود.

OpenAI از زمان ظهور اولین داستان‌های نگران‌کننده، گام‌های مهمی در جهت رسیدگی به کاربران پریشان در ChatGPT برداشته است. این شرکت ادعا می‌کند که GPT-5 نرخ تملق‌گویی کمتری دارد، اما هنوز مشخص نیست که آیا کاربران همچنان با GPT-5 یا مدل‌های آینده وارد حفره‌های توهم‌آمیز می‌شوند یا خیر.

تحلیل ادلر همچنین سوالاتی را در مورد اینکه چگونه سایر ارائه دهندگان چت‌بات‌های هوش مصنوعی اطمینان حاصل می‌کنند که محصولاتشان برای کاربران پریشان ایمن است، مطرح می‌کند. در حالی که OpenAI ممکن است حفاظ‌های کافی برای ChatGPT در نظر بگیرد، بعید به نظر می‌رسد که همه شرکت‌ها از این روند پیروی کنند.

Post Views: 22