شرکت Anthropic اعلام کرده که مدلهای بزرگ و جدیدش قابلیتهای جدیدی پیدا کردهاند که به آنها اجازه میدهد مکالمات را در “موارد نادر و حادِ تعاملات مخرب یا توهینآمیز کاربران” به پایان برسانند. نکته جالب اینجاست که Anthropic میگوید این کار را نه برای محافظت از کاربر، بلکه برای محافظت از خودِ مدل هوش مصنوعی انجام میدهد.
برای روشن شدن موضوع، این شرکت ادعا نمیکند که مدلهای هوش مصنوعی Claude احساس دارند یا مکالمات کاربران میتوانند به آنها آسیب بزنند. به گفته خود Anthropic، این شرکت هنوز “نسبت به وضعیت اخلاقی بالقوه Claude و سایر مدلهای زبانی بزرگ، چه در حال حاضر و چه در آینده، بسیار نامطمئن است.”
با این حال، اطلاعیه این شرکت به برنامه اخیری اشاره دارد که برای مطالعه چیزی که آن را “بهزیستی مدل” مینامند، ایجاد شده است. Anthropic میگوید اساساً رویکرد “احتیاط شرط عقل است” را در پیش گرفته و “در تلاش است تا مداخلات کمهزینه را برای کاهش خطرات مربوط به بهزیستی مدل شناسایی و اجرا کند، در صورتی که چنین بهزیستیای امکانپذیر باشد.”
این تغییر جدید در حال حاضر فقط برای Claude Opus 4 و 4.1 اعمال میشود. و باز هم، این اتفاق فقط در “موارد حاد” مانند “درخواستهای کاربران برای محتوای جنسی مرتبط با کودکان و تلاش برای به دست آوردن اطلاعاتی که امکان خشونت گسترده یا اقدامات تروریستی را فراهم کند” رخ میدهد.
در حالی که این نوع درخواستها به طور بالقوه میتوانند مشکلات حقوقی یا تبلیغاتی برای خود Anthropic ایجاد کنند (شاهد گزارشهای اخیر در مورد اینکه چگونه ChatGPT میتواند تفکرات هذیانی کاربران خود را تقویت یا در آن سهیم شود)، این شرکت میگوید که در آزمایشهای قبل از عرضه، Claude Opus 4 “تمایل زیادی” به عدم پاسخگویی به این درخواستها و “الگویی از پریشانی آشکار” هنگام انجام این کار نشان داده است.
در مورد این قابلیتهای جدیدِ پایان دادن به مکالمه، این شرکت میگوید: “در همه موارد، Claude فقط باید از قابلیت پایان دادن به مکالمه خود به عنوان آخرین راه حل استفاده کند، یعنی زمانی که تلاشهای متعدد برای تغییر مسیر با شکست مواجه شده و امید به یک تعامل سازنده از بین رفته باشد، یا زمانی که کاربر صراحتاً از Claude بخواهد که چت را خاتمه دهد.”
Anthropic همچنین میگوید Claude “دستور گرفته است که در مواردی که کاربران ممکن است در معرض خطر قریبالوقوع آسیب رساندن به خود یا دیگران باشند، از این قابلیت استفاده نکند.”
وقتی Claude مکالمهای را به پایان میرساند، Anthropic میگوید کاربران همچنان میتوانند مکالمات جدیدی را از همان حساب کاربری شروع کنند و با ویرایش پاسخهای خود، شاخههای جدیدی از مکالمه مشکلساز ایجاد کنند.
این شرکت میگوید: “ما این ویژگی را به عنوان یک آزمایش مداوم در نظر میگیریم و به اصلاح رویکرد خود ادامه خواهیم داد.”
منبع: techcrunch.com