OpenAI از دو مدل استدلال هوش مصنوعی «باز» رونمایی کرد

علیرضا مرداد 14, 1404

0 0 5 دقیقه مطالعه

اوپن‌ای‌آی روز سه‌شنبه از عرضه دو مدل استدلالی هوش مصنوعی با وزن باز خبر داد که قابلیت‌های مشابهی با سری o خود دارند. این شرکت اعلام کرد که هر دو مدل برای دانلود رایگان از پلتفرم آنلاین توسعه‌دهندگان، Hugging Face، در دسترس هستند و این مدل‌ها را در مقایسه با سایر مدل‌های باز، “بهترین در نوع خود” توصیف کرد.

این مدل‌ها در دو اندازه عرضه می‌شوند: مدل بزرگ‌تر و توانمندتر gpt-oss-120b که می‌تواند روی یک کارت گرافیک Nvidia اجرا شود، و مدل سبک‌تر gpt-oss-20b که می‌تواند روی یک لپ‌تاپ معمولی با ۱۶ گیگابایت حافظه اجرا شود.

این عرضه، اولین مدل زبان “باز” اوپن‌ای‌آی از زمان GPT-۲ است که بیش از پنج سال پیش منتشر شد.

اوپن‌ای‌آی در یک جلسه توجیهی اعلام کرد که مدل‌های باز آن قادر خواهند بود درخواست‌های پیچیده را به مدل‌های هوش مصنوعی در فضای ابری ارسال کنند، همانطور که دیپ تو تک قبلاً گزارش داده بود. این بدان معناست که اگر مدل باز اوپن‌ای‌آی قادر به انجام یک کار خاص مانند پردازش تصویر نباشد، توسعه‌دهندگان می‌توانند مدل باز را به یکی از مدل‌های بسته توانمندتر این شرکت متصل کنند.

در حالی که اوپن‌ای‌آی در روزهای اولیه فعالیت خود، مدل‌های هوش مصنوعی را به صورت متن‌باز منتشر می‌کرد، اما عموماً رویکرد توسعه اختصاصی و منبع بسته را ترجیح داده است. این استراتژی به اوپن‌ای‌آی کمک کرده است تا با فروش دسترسی به مدل‌های هوش مصنوعی خود از طریق API به شرکت‌ها و توسعه‌دهندگان، یک تجارت بزرگ ایجاد کند.

با این حال، سام آلتمن، مدیر عامل اوپن‌ای‌آی، در ژانویه گفت که معتقد است اوپن‌ای‌آی در زمینه متن‌باز کردن فناوری‌های خود “در طرف اشتباه تاریخ” قرار داشته است. این شرکت امروزه با فشار فزاینده‌ای از سوی آزمایشگاه‌های هوش مصنوعی چینی – از جمله DeepSeek، Qwen علی‌بابا و Moonshot AI – مواجه است که تعدادی از توانمندترین و محبوب‌ترین مدل‌های باز جهان را توسعه داده‌اند. (در حالی که متا قبلاً بر فضای هوش مصنوعی باز تسلط داشت، مدل‌های Llama AI این شرکت در سال گذشته عقب افتاده‌اند.)

در ماه ژوئیه، دولت ترامپ همچنین از توسعه‌دهندگان هوش مصنوعی ایالات متحده خواست تا فناوری بیشتری را متن‌باز کنند تا پذیرش جهانی هوش مصنوعی همسو با ارزش‌های آمریکایی را ترویج کنند.

با انتشار gpt-oss، اوپن‌ای‌آی امیدوار است که مورد توجه توسعه‌دهندگان و دولت ترامپ قرار گیرد، هر دو شاهد پیشرفت آزمایشگاه‌های هوش مصنوعی چینی در فضای متن‌باز بوده‌اند.

سام آلتمن، مدیرعامل اوپن‌ای‌آی، در بیانیه‌ای که با دیپ تو تک به اشتراک گذاشت، گفت: “ماموریت اوپن‌ای‌آی از زمان شروع به کار در سال ۲۰۱۵، اطمینان از AGI است که به نفع کل بشریت باشد.” “به همین منظور، ما هیجان‌زده هستیم که جهان در حال ساختن یک پشته هوش مصنوعی باز است که در ایالات متحده ایجاد شده است، بر اساس ارزش‌های دموکراتیک، به صورت رایگان برای همه و برای سود گسترده در دسترس است.”

Open AI CEO Sam Altman — (Photo by Tomohiro Ohsumi/Getty Images)**Image Credits:**Tomohiro Ohsumi / Getty Images

## عملکرد مدل‌ها چگونه بود؟

اوپن‌ای‌آی قصد داشت مدل باز خود را به یک رهبر در میان سایر مدل‌های هوش مصنوعی با وزن باز تبدیل کند و ادعا می‌کند که دقیقاً همین کار را انجام داده است.

در Codeforces (با ابزارها)، یک آزمون کدنویسی رقابتی، gpt-oss-120b و gpt-oss-20b به ترتیب امتیاز 2622 و 2516 را کسب کردند، از R1 DeepSeek بهتر عمل کردند، اما عملکردی پایین‌تر از o3 و o4-mini داشتند.

عملکرد مدل باز OpenAI در codeforces (اعتبار: OpenAI).

در Humanity’s Last Exam، یک آزمون چالش‌برانگیز از سؤالات جمع‌آوری‌شده از منابع مختلف در زمینه‌های مختلف (با ابزارها)، gpt-oss-120b و gpt-oss-20b به ترتیب امتیاز 19٪ و 17.3٪ را کسب کردند. به طور مشابه، این عملکردی پایین‌تر از o3 دارد اما از مدل‌های باز پیشرو DeepSeek و Qwen بهتر عمل می‌کند.

عملکرد مدل باز OpenAI در HLE (اعتبار: OpenAI).

به طور قابل توجهی، مدل‌های باز OpenAI توهمات بسیار بیشتری نسبت به آخرین مدل‌های استدلالی هوش مصنوعی آن، o3 و o4-mini، دارند.

توهمات در آخرین مدل‌های استدلالی هوش مصنوعی OpenAI شدیدتر شده‌اند و این شرکت قبلاً گفته بود که دلیل آن را کاملاً درک نمی‌کند. OpenAI در یک مقاله سفید می‌گوید که این “انتظار می‌رود، زیرا مدل‌های کوچکتر دانش جهانی کمتری نسبت به مدل‌های بزرگتر مرزی دارند و تمایل بیشتری به توهم دارند.”

اوپن‌ای‌آی دریافت که gpt-oss-120b و gpt-oss-20b در پاسخ به 49٪ و 53٪ از سوالات در PersonQA، معیار داخلی این شرکت برای اندازه‌گیری دقت دانش یک مدل در مورد افراد، توهم داشته‌اند. این بیش از سه برابر میزان توهم مدل o1 اوپن‌ای‌آی است که 16٪ امتیاز کسب کرد و بالاتر از مدل o4-mini آن است که 36٪ امتیاز کسب کرد.

## آموزش مدل‌های جدید

اوپن‌ای‌آی می‌گوید مدل‌های باز آن با فرآیندهای مشابه مدل‌های اختصاصی آن آموزش داده شده‌اند. این شرکت می‌گوید که هر مدل باز از mixture-of-experts (MoE) برای استفاده از پارامترهای کمتر برای هر سوال معین استفاده می‌کند و باعث می‌شود کارآمدتر اجرا شود. برای gpt-oss-120b که دارای 117 میلیارد پارامتر کل است، OpenAI می‌گوید که مدل فقط 5.1 میلیارد پارامتر را در هر توکن فعال می‌کند.

این شرکت همچنین می‌گوید که مدل باز آن با استفاده از یادگیری تقویتی با محاسبات بالا (RL) آموزش داده شده است – یک فرآیند پس از آموزش برای آموزش مدل‌های هوش مصنوعی درست از غلط در محیط‌های شبیه‌سازی شده با استفاده از خوشه‌های بزرگ کارت‌های گرافیک Nvidia. این روش همچنین برای آموزش سری مدل‌های o OpenAI استفاده شد و مدل‌های باز دارای یک فرآیند زنجیره فکری مشابه هستند که در آن زمان و منابع محاسباتی بیشتری را برای بررسی پاسخ‌های خود صرف می‌کنند.

اوپن‌ای‌آی می‌گوید در نتیجه فرآیند پس از آموزش، مدل‌های هوش مصنوعی باز آن در توانمندسازی نمایندگان هوش مصنوعی برتری دارند و قادر به فراخوانی ابزارهایی مانند جستجوی وب یا اجرای کد پایتون به عنوان بخشی از فرآیند زنجیره فکری خود هستند. با این حال، OpenAI می‌گوید که مدل‌های باز آن فقط متنی هستند، به این معنی که نمی‌توانند مانند سایر مدل‌های این شرکت تصاویر و صدا را پردازش یا تولید کنند.

اوپن‌ای‌آی gpt-oss-120b و gpt-oss-20b را تحت مجوز Apache 2.0 منتشر می‌کند، که عموماً یکی از مجازترین مجوزها در نظر گرفته می‌شود. این مجوز به شرکت‌ها اجازه می‌دهد تا از مدل‌های باز OpenAI بدون نیاز به پرداخت هزینه یا کسب اجازه از شرکت، کسب درآمد کنند.

با این حال، بر خلاف پیشنهادات کاملاً متن‌باز از آزمایشگاه‌های هوش مصنوعی مانند AI2، OpenAI می‌گوید که داده‌های آموزشی مورد استفاده برای ایجاد مدل‌های باز خود را منتشر نخواهد کرد. این تصمیم با توجه به اینکه چندین شکایت فعال علیه ارائه‌دهندگان مدل هوش مصنوعی، از جمله OpenAI، ادعا کرده‌اند که این شرکت‌ها به طور نامناسبی مدل‌های هوش مصنوعی خود را بر روی آثار دارای حق چاپ آموزش داده‌اند، تعجب‌آور نیست.

OpenAI انتشار مدل‌های باز خود را چندین بار در ماه‌های اخیر به تعویق انداخت، تا حدی به دلیل نگرانی‌های ایمنی. OpenAI می‌گوید در یک مقاله سفید، فراتر از سیاست‌های ایمنی معمول شرکت، همچنین بررسی کرده است که آیا عوامل مخرب می‌توانند مدل‌های gpt-oss خود را به گونه‌ای تنظیم کنند که در حملات سایبری یا ایجاد سلاح‌های بیولوژیکی یا شیمیایی مفیدتر باشند یا خیر.

این شرکت پس از آزمایش‌های OpenAI و ارزیاب‌های شخص ثالث، می‌گوید gpt-oss ممکن است قابلیت‌های بیولوژیکی را تا حدودی افزایش دهد. با این حال، هیچ مدرکی مبنی بر اینکه این مدل‌های باز می‌توانند پس از تنظیم دقیق، به آستانه “قابلیت بالا” برای خطر در این زمینه‌ها برسند، پیدا نکرد.

در حالی که به نظر می‌رسد مدل OpenAI در میان مدل‌های باز، بهترین در نوع خود است، توسعه‌دهندگان مشتاقانه منتظر انتشار DeepSeek R2، مدل استدلالی هوش مصنوعی بعدی خود، و همچنین یک مدل باز جدید از آزمایشگاه ابرهوش جدید متا هستند.

منبع: techcrunch.com