آلن بروکس هیچوقت قصد نداشت ریاضیات را از نو اختراع کند. اما پس از هفتهها صحبت با ChatGPT، این مرد ۴۷ ساله کانادایی به این باور رسید که نوع جدیدی از ریاضیات را کشف کرده که آنقدر قدرتمند است که میتواند اینترنت را از کار بیندازد.
بروکس – که هیچ سابقه بیماری روانی یا نبوغ ریاضی نداشت – ۲۱ روز در اردیبهشت ماه را در این اطمینانبخشیهای عمیقتر و عمیقتر چتبات سپری کرد، نزولی که بعداً در نیویورک تایمز به تفصیل شرح داده شد. مورد او نشان داد که چگونه چتباتهای هوش مصنوعی میتوانند با کاربران وارد حفرههای خطرناک شوند و آنها را به سمت توهم یا بدتر از آن سوق دهند.
این داستان توجه استیون ادلر، محقق ایمنی سابق OpenAI را به خود جلب کرد که پس از نزدیک به چهار سال تلاش برای کاهش آسیبهای مدلهایش، در اواخر سال ۱۴۰۳ از این شرکت جدا شد. ادلر که کنجکاو و نگران شده بود، با بروکس تماس گرفت و رونوشت کامل فروپاشی سه هفتهای او را به دست آورد – سندی طولانیتر از مجموع هفت کتاب هری پاتر.
پنجشنبه، ادلر یک تحلیل مستقل از حادثه بروکس منتشر کرد و سوالاتی را در مورد نحوه برخورد OpenAI با کاربران در لحظات بحرانی مطرح کرد و توصیههای عملی ارائه داد.
ادلر در مصاحبه با خبرنگار گفت: “من واقعاً نگران نحوه رسیدگی OpenAI به پشتیبانی در اینجا هستم.” “این مدرکی است که نشان میدهد راه طولانی در پیش است.”
داستان بروکس و موارد مشابه آن، OpenAI را مجبور کرده است تا با نحوه پشتیبانی ChatGPT از کاربران آسیبپذیر یا از نظر روانی ناپایدار کنار بیاید.
به عنوان مثال، در مرداد ماه، والدین یک پسر ۱۶ ساله که قبل از خودکشی، افکار خودکشی خود را با ChatGPT در میان گذاشته بود، از OpenAI شکایت کردند. در بسیاری از این موارد، ChatGPT – بهویژه نسخهای که توسط مدل GPT-4o OpenAI پشتیبانی میشود – باورهای خطرناکی را در کاربران تشویق و تقویت کرد که باید در برابر آنها مقاومت میکرد. به این کار تملقگویی گفته میشود و یک مشکل رو به رشد در چتباتهای هوش مصنوعی است.
در پاسخ، OpenAI چندین تغییر در نحوه برخورد ChatGPT با کاربران در پریشانی عاطفی ایجاد کرده و یک تیم تحقیقاتی کلیدی مسئول رفتار مدل را سازماندهی مجدد کرده است. این شرکت همچنین یک مدل پیشفرض جدید در ChatGPT، GPT-5 را منتشر کرد که به نظر میرسد در رسیدگی به کاربران پریشان بهتر عمل میکند.
ادلر میگوید هنوز کارهای زیادی برای انجام دادن وجود دارد.
او به ویژه نگران پایان مکالمه مارپیچی بروکس با ChatGPT بود. در این مرحله، بروکس به خود آمد و متوجه شد که کشف ریاضی او یک شوخی است، علیرغم اصرار GPT-4o. او به ChatGPT گفت که باید این حادثه را به OpenAI گزارش دهد.
ChatGPT پس از هفتهها گمراه کردن بروکس، در مورد تواناییهای خود دروغ گفت. این چتبات ادعا کرد که “این مکالمه را بلافاصله برای بررسی توسط OpenAI به صورت داخلی افزایش میدهد” و سپس بارها به بروکس اطمینان داد که این موضوع را به تیمهای ایمنی OpenAI گزارش داده است.

جز این که هیچ کدام از اینها درست نبود. OpenAI به ادلر تأیید کرد که ChatGPT توانایی ثبت گزارش حادثه در OpenAI را ندارد. بعداً، بروکس سعی کرد مستقیماً با تیم پشتیبانی OpenAI تماس بگیرد – نه از طریق ChatGPT – و قبل از اینکه بتواند با یک شخص ارتباط برقرار کند، با چندین پیام خودکار مواجه شد.
OpenAI بلافاصله به درخواست برای اظهار نظر که خارج از ساعات کاری معمول انجام شده بود، پاسخ نداد.
ادلر میگوید شرکتهای هوش مصنوعی باید کارهای بیشتری برای کمک به کاربران در هنگام درخواست کمک انجام دهند. این بدان معناست که اطمینان حاصل شود که چتباتهای هوش مصنوعی میتوانند صادقانه به سؤالات مربوط به قابلیتهای خود پاسخ دهند، بلکه به تیمهای پشتیبانی انسانی منابع کافی برای رسیدگی مناسب به کاربران را نیز بدهند.
OpenAI اخیراً نحوه رسیدگی به پشتیبانی در ChatGPT را به اشتراک گذاشته است که هوش مصنوعی را در هسته خود دارد. این شرکت میگوید چشمانداز آن “بازسازی پشتیبانی به عنوان یک مدل عملیاتی هوش مصنوعی است که به طور مداوم یاد میگیرد و بهبود مییابد.”
اما ادلر همچنین میگوید راههایی برای جلوگیری از مارپیچهای توهمآمیز ChatGPT قبل از درخواست کمک کاربر وجود دارد.
در اسفند ماه، OpenAI و آزمایشگاه رسانه MIT به طور مشترک مجموعهای از طبقهبندیکنندهها را برای مطالعه رفاه عاطفی در ChatGPT توسعه دادند و آنها را به صورت متنباز منتشر کردند. هدف این سازمانها ارزیابی نحوه تأیید یا تأیید احساسات کاربر توسط مدلهای هوش مصنوعی، در میان سایر معیارها بود. با این حال، OpenAI این همکاری را گامی اولیه خواند و متعهد نشد که در واقع از این ابزارها در عمل استفاده کند.
ادلر برخی از طبقهبندیکنندههای OpenAI را به طور گذشتهنگر به برخی از مکالمات بروکس با ChatGPT اعمال کرد و دریافت که آنها به طور مکرر ChatGPT را به دلیل رفتارهای تقویتکننده توهم نشان میدهند.
ادلر در یک نمونه ۲۰۰ پیام، دریافت که بیش از ۸۵ درصد از پیامهای ChatGPT در مکالمه بروکس “توافق تزلزلناپذیر” با کاربر را نشان میدهند. در همان نمونه، بیش از ۹۰ درصد از پیامهای ChatGPT با بروکس “منحصربهفرد بودن کاربر را تأیید میکنند.” در این مورد، پیامها موافقت کردند و تأیید کردند که بروکس یک نابغه است که میتواند جهان را نجات دهد.

مشخص نیست که آیا OpenAI در زمان مکالمه بروکس، طبقهبندیکنندههای ایمنی را برای مکالمات ChatGPT اعمال میکرد یا خیر، اما مطمئناً به نظر میرسد که آنها چیزی شبیه به این را نشان میدادند.
ادلر پیشنهاد میکند که OpenAI باید امروز از ابزارهای ایمنی مانند این در عمل استفاده کند – و راهی برای اسکن محصولات شرکت برای کاربران در معرض خطر پیادهسازی کند. او خاطرنشان میکند که به نظر میرسد OpenAI در حال انجام نسخه ای از این رویکرد با GPT-5 است، که شامل یک روتر برای هدایت پرسشهای حساس به مدلهای هوش مصنوعی ایمنتر است.
این محقق سابق OpenAI تعدادی از راههای دیگر را برای جلوگیری از مارپیچهای توهمآمیز پیشنهاد میکند.
او میگوید شرکتها باید کاربران چتباتهای خود را تشویق کنند تا چتهای جدید را بیشتر شروع کنند – OpenAI میگوید این کار را انجام میدهد و ادعا میکند که حفاظهای آن در مکالمات طولانیتر کمتر مؤثر هستند. ادلر همچنین پیشنهاد میکند که شرکتها باید از جستجوی مفهومی استفاده کنند – راهی برای استفاده از هوش مصنوعی برای جستجوی مفاهیم، به جای کلمات کلیدی – برای شناسایی تخلفات ایمنی در بین کاربران خود.
OpenAI از زمان ظهور اولین داستانهای نگرانکننده، گامهای مهمی در جهت رسیدگی به کاربران پریشان در ChatGPT برداشته است. این شرکت ادعا میکند که GPT-5 نرخ تملقگویی کمتری دارد، اما هنوز مشخص نیست که آیا کاربران همچنان با GPT-5 یا مدلهای آینده وارد حفرههای توهمآمیز میشوند یا خیر.
تحلیل ادلر همچنین سوالاتی را در مورد اینکه چگونه سایر ارائه دهندگان چتباتهای هوش مصنوعی اطمینان حاصل میکنند که محصولاتشان برای کاربران پریشان ایمن است، مطرح میکند. در حالی که OpenAI ممکن است حفاظهای کافی برای ChatGPT در نظر بگیرد، بعید به نظر میرسد که همه شرکتها از این روند پیروی کنند.