شرکت Anthropic اعلام کرده که مدل‌های بزرگ و جدیدش قابلیت‌های جدیدی پیدا کرده‌اند که به آن‌ها اجازه می‌دهد مکالمات را در “موارد نادر و حادِ تعاملات مخرب یا توهین‌آمیز کاربران” به پایان برسانند. نکته جالب اینجاست که Anthropic می‌گوید این کار را نه برای محافظت از کاربر، بلکه برای محافظت از خودِ مدل هوش مصنوعی انجام می‌دهد.

برای روشن شدن موضوع، این شرکت ادعا نمی‌کند که مدل‌های هوش مصنوعی Claude احساس دارند یا مکالمات کاربران می‌توانند به آن‌ها آسیب بزنند. به گفته خود Anthropic، این شرکت هنوز “نسبت به وضعیت اخلاقی بالقوه Claude و سایر مدل‌های زبانی بزرگ، چه در حال حاضر و چه در آینده، بسیار نامطمئن است.”

با این حال، اطلاعیه این شرکت به برنامه اخیری اشاره دارد که برای مطالعه چیزی که آن را “بهزیستی مدل” می‌نامند، ایجاد شده است. Anthropic می‌گوید اساساً رویکرد “احتیاط شرط عقل است” را در پیش گرفته و “در تلاش است تا مداخلات کم‌هزینه را برای کاهش خطرات مربوط به بهزیستی مدل شناسایی و اجرا کند، در صورتی که چنین بهزیستی‌ای امکان‌پذیر باشد.”

این تغییر جدید در حال حاضر فقط برای Claude Opus 4 و 4.1 اعمال می‌شود. و باز هم، این اتفاق فقط در “موارد حاد” مانند “درخواست‌های کاربران برای محتوای جنسی مرتبط با کودکان و تلاش برای به دست آوردن اطلاعاتی که امکان خشونت گسترده یا اقدامات تروریستی را فراهم کند” رخ می‌دهد.

در حالی که این نوع درخواست‌ها به طور بالقوه می‌توانند مشکلات حقوقی یا تبلیغاتی برای خود Anthropic ایجاد کنند (شاهد گزارش‌های اخیر در مورد اینکه چگونه ChatGPT می‌تواند تفکرات هذیانی کاربران خود را تقویت یا در آن سهیم شود)، این شرکت می‌گوید که در آزمایش‌های قبل از عرضه، Claude Opus 4 “تمایل زیادی” به عدم پاسخگویی به این درخواست‌ها و “الگویی از پریشانی آشکار” هنگام انجام این کار نشان داده است.

در مورد این قابلیت‌های جدیدِ پایان دادن به مکالمه، این شرکت می‌گوید: “در همه موارد، Claude فقط باید از قابلیت پایان دادن به مکالمه خود به عنوان آخرین راه حل استفاده کند، یعنی زمانی که تلاش‌های متعدد برای تغییر مسیر با شکست مواجه شده و امید به یک تعامل سازنده از بین رفته باشد، یا زمانی که کاربر صراحتاً از Claude بخواهد که چت را خاتمه دهد.”

Anthropic همچنین می‌گوید Claude “دستور گرفته است که در مواردی که کاربران ممکن است در معرض خطر قریب‌الوقوع آسیب رساندن به خود یا دیگران باشند، از این قابلیت استفاده نکند.”

وقتی Claude مکالمه‌ای را به پایان می‌رساند، Anthropic می‌گوید کاربران همچنان می‌توانند مکالمات جدیدی را از همان حساب کاربری شروع کنند و با ویرایش پاسخ‌های خود، شاخه‌های جدیدی از مکالمه مشکل‌ساز ایجاد کنند.

این شرکت می‌گوید: “ما این ویژگی را به عنوان یک آزمایش مداوم در نظر می‌گیریم و به اصلاح رویکرد خود ادامه خواهیم داد.”

منبع: techcrunch.com

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *