سال‌هاست که مدیران عامل شرکت‌های بزرگ فناوری، دیدگاه‌هایی را در مورد عامل‌های هوش مصنوعی مطرح می‌کنند که می‌توانند به‌طور خودکار از برنامه‌های نرم‌افزاری برای انجام وظایف برای مردم استفاده کنند. اما اگر عامل‌های هوش مصنوعی مصرفی امروزی را امتحان کنید، خواه ChatGPT Agent شرکت OpenAI باشد یا Comet شرکت Perplexity، به‌سرعت متوجه خواهید شد که این فناوری هنوز چقدر محدود است. قوی‌تر کردن عامل‌های هوش مصنوعی ممکن است به مجموعه‌ای جدید از تکنیک‌ها نیاز داشته باشد که صنعت هنوز در حال کشف آن‌هاست.

یکی از این تکنیک‌ها، شبیه‌سازی دقیق فضاهای کاری است که در آن عامل‌ها می‌توانند برای وظایف چندمرحله‌ای آموزش ببینند، که به عنوان محیط‌های یادگیری تقویتی (RL) شناخته می‌شوند. درست مانند مجموعه‌ داده‌های برچسب‌گذاری‌شده که به موج قبلی هوش مصنوعی قدرت دادند، به نظر می‌رسد محیط‌های RL به یک عنصر حیاتی در توسعه عامل‌ها تبدیل شده‌اند.

پژوهشگران، بنیان‌گذاران و سرمایه‌گذاران هوش مصنوعی به خبرنگار می‌گویند که آزمایشگاه‌های پیشرو هوش مصنوعی اکنون خواستار محیط‌های RL بیشتری هستند و کمبودی در استارت‌آپ‌هایی که امیدوارند آن‌ها را تأمین کنند، وجود ندارد.

جنیفر لی، شریک عمومی Andreessen Horowitz، در مصاحبه‌ای با خبرنگار گفت: «تمام آزمایشگاه‌های بزرگ هوش مصنوعی در حال ساخت محیط‌های RL در داخل هستند. اما همان‌طور که می‌توانید تصور کنید، ایجاد این مجموعه‌ داده‌ها بسیار پیچیده است، بنابراین آزمایشگاه‌های هوش مصنوعی نیز به فروشندگان شخص ثالثی نگاه می‌کنند که می‌توانند محیط‌ها و ارزیابی‌های باکیفیت ایجاد کنند. همه به این فضا نگاه می‌کنند.»

فشار برای محیط‌های RL، طبقه جدیدی از استارت‌آپ‌های با بودجه مناسب مانند Mechanize Work و Prime Intellect را به وجود آورده است که هدفشان رهبری این فضا است. در همین حال، شرکت‌های بزرگ برچسب‌گذاری داده مانند Mercor و Surge می‌گویند که برای همگام شدن با تغییرات صنعت از مجموعه‌ داده‌های ایستا به شبیه‌سازی‌های تعاملی، سرمایه‌گذاری بیشتری در محیط‌های RL انجام می‌دهند. آزمایشگاه‌های بزرگ نیز در حال بررسی سرمایه‌گذاری سنگین هستند: طبق گزارش The Information، رهبران Anthropic در مورد صرف بیش از ۱ میلیارد دلار برای محیط‌های RL در سال آینده بحث کرده‌اند.

امید سرمایه‌گذاران و بنیان‌گذاران این است که یکی از این استارت‌آپ‌ها به عنوان «Scale AI برای محیط‌ها» ظاهر شود، که اشاره به قدرت برچسب‌گذاری داده ۲۹ میلیارد دلاری دارد که به عصر چت‌بات‌ها قدرت داد.

پرسش این است که آیا محیط‌های RL واقعاً مرزهای پیشرفت هوش مصنوعی را جابجا خواهند کرد یا خیر.

محیط RL چیست؟

در هسته خود، محیط‌های RL زمین‌های تمرینی هستند که شبیه‌سازی می‌کنند یک عامل هوش مصنوعی در یک برنامه نرم‌افزاری واقعی چه کاری انجام می‌دهد. یکی از بنیان‌گذاران در مصاحبه‌ای اخیر ساخت آن‌ها را «مانند ایجاد یک بازی ویدیویی بسیار خسته‌کننده» توصیف کرد.

به عنوان مثال، یک محیط می‌تواند یک مرورگر Chrome را شبیه‌سازی کند و به یک عامل هوش مصنوعی وظیفه خرید یک جفت جوراب در آمازون را بدهد. به عامل بر اساس عملکردش نمره داده می‌شود و وقتی موفق می‌شود (در این مورد، خرید یک جفت جوراب مناسب)، سیگنال پاداش ارسال می‌شود.

در حالی که چنین وظیفه‌ای نسبتاً ساده به نظر می‌رسد، مکان‌های زیادی وجود دارد که یک عامل هوش مصنوعی می‌تواند در آن به مشکل بخورد. ممکن است در پیمایش منوهای کشویی صفحه وب گم شود یا جوراب‌های زیادی بخرد. و از آنجایی که توسعه‌دهندگان نمی‌توانند دقیقاً پیش‌بینی کنند که یک عامل چه اشتباهی مرتکب می‌شود، خود محیط باید به اندازه کافی قوی باشد تا هر رفتار غیرمنتظره‌ای را ثبت کند و همچنان بازخورد مفیدی ارائه دهد. این باعث می‌شود ساخت محیط‌ها بسیار پیچیده‌تر از یک مجموعه داده ایستا باشد.

برخی از محیط‌ها کاملاً قوی هستند و به عامل‌های هوش مصنوعی اجازه می‌دهند از ابزارها استفاده کنند، به اینترنت دسترسی داشته باشند یا از برنامه‌های نرم‌افزاری مختلف برای تکمیل یک کار معین استفاده کنند. برخی دیگر باریک‌تر هستند و هدفشان کمک به یک عامل برای یادگیری وظایف خاص در برنامه‌های نرم‌افزاری سازمانی است.

در حالی که محیط‌های RL در حال حاضر موضوع داغ در سیلیکون‌ولی هستند، سابقه زیادی برای استفاده از این تکنیک وجود دارد. یکی از اولین پروژه‌های OpenAI در سال ۱۳۹۵ ساخت «RL Gyms» بود که بسیار شبیه به مفهوم مدرن محیط‌ها بودند. در همان سال، Google DeepMind با استفاده از تکنیک‌های RL در یک محیط شبیه‌سازی‌شده، AlphaGo را آموزش داد – یک سیستم هوش مصنوعی که می‌توانست یک قهرمان جهان را در بازی تخته‌ای Go شکست دهد.

آنچه در مورد محیط‌های امروزی منحصربه‌فرد است این است که پژوهشگران در تلاش هستند تا عامل‌های هوش مصنوعی کاربر رایانه را با مدل‌های ترانسفورماتور بزرگ بسازند. برخلاف AlphaGo، که یک سیستم هوش مصنوعی تخصصی بود که در محیط‌های بسته کار می‌کرد، عامل‌های هوش مصنوعی امروزی آموزش داده می‌شوند تا قابلیت‌های عمومی‌تری داشته باشند. پژوهشگران هوش مصنوعی امروزی نقطه شروع قوی‌تری دارند، اما همچنین هدف پیچیده‌ای دارند که در آن ممکن است اشتباهات بیشتری رخ دهد.

یک میدان شلوغ

شرکت‌های برچسب‌گذاری داده هوش مصنوعی مانند Scale AI، Surge و Mercor در تلاش هستند تا به این لحظه پاسخ دهند و محیط‌های RL را بسازند. این شرکت‌ها منابع بیشتری نسبت به بسیاری از استارت‌آپ‌ها در این فضا دارند، و همچنین روابط عمیقی با آزمایشگاه‌های هوش مصنوعی دارند.

ادوین چن، مدیر عامل Surge، به خبرنگار می‌گوید که اخیراً شاهد «افزایش چشمگیری» در تقاضا برای محیط‌های RL در آزمایشگاه‌های هوش مصنوعی بوده است. Surge – که طبق گزارش‌ها سال گذشته ۱.۲ میلیارد دلار درآمد از کار با آزمایشگاه‌های هوش مصنوعی مانند OpenAI، Google، Anthropic و Meta به دست آورده است – اخیراً یک سازمان داخلی جدید را به طور خاص برای ساخت محیط‌های RL ایجاد کرده است.

Mercor، یک استارت‌آپ با ارزش ۱۰ میلیارد دلار، که با OpenAI، Meta و Anthropic نیز همکاری داشته است، به دنبال Surge است. Mercor به گفته مطالب بازاریابی که خبرنگار دیده است، در حال ارائه پیشنهاد به سرمایه‌گذاران برای ساخت محیط‌های RL برای وظایف خاص دامنه مانند کدنویسی، مراقبت‌های بهداشتی و حقوق است.

برندان فودی، مدیر عامل Mercor، در مصاحبه‌ای به خبرنگار گفت که «تعداد کمی می‌دانند که فرصت پیرامون محیط‌های RL واقعاً چقدر بزرگ است.»

Scale AI قبلاً بر فضای برچسب‌گذاری داده تسلط داشت، اما از زمانی که متا ۱۴ میلیارد دلار سرمایه‌گذاری کرد و مدیرعامل آن را استخدام کرد، جایگاه خود را از دست داده است. از آن زمان، گوگل و OpenAI، Scale AI را به عنوان مشتری کنار گذاشتند و این استارت‌آپ حتی برای کار برچسب‌گذاری داده در داخل متا با رقابت مواجه است. اما با این حال، Scale در تلاش است تا به این لحظه پاسخ دهد و محیط‌ها را بسازد.

چتان رانه، رئیس محصول Scale AI برای عامل‌ها و محیط‌های RL، گفت: «این فقط ماهیت کسب‌وکاری است که [Scale AI] در آن قرار دارد. Scale ثابت کرده است که توانایی سازگاری سریع را دارد. ما این کار را در روزهای اولیه خودروهای خودران، اولین واحد تجاری خود، انجام دادیم. وقتی ChatGPT عرضه شد، Scale AI با آن سازگار شد. و اکنون، بار دیگر، ما با فضاهای مرزی جدید مانند عامل‌ها و محیط‌ها سازگار می‌شویم.»

برخی از بازیکنان جدیدتر از ابتدا منحصراً بر محیط‌ها تمرکز می‌کنند. از جمله آن‌ها Mechanize Work است، یک استارت‌آپ که تقریباً شش ماه پیش با هدف جسورانه «خودکارسازی همه مشاغل» تأسیس شد. با این حال، متیو بارنت، یکی از بنیان‌گذاران، به خبرنگار می‌گوید که شرکت او با محیط‌های RL برای عامل‌های کدنویسی هوش مصنوعی شروع می‌کند.

بارنت می‌گوید که Mechanize Work قصد دارد آزمایشگاه‌های هوش مصنوعی را با تعداد کمی محیط RL قوی تأمین کند، نه شرکت‌های داده بزرگ‌تری که طیف گسترده‌ای از محیط‌های RL ساده را ایجاد می‌کنند. تا به این لحظه، این استارت‌آپ به مهندسان نرم‌افزار حقوق ۵۰۰۰۰۰ دلاری برای ساخت محیط‌های RL ارائه می‌دهد – بسیار بالاتر از آنچه یک پیمانکار ساعتی می‌تواند در Scale AI یا Surge به دست آورد.

دو منبع آشنا به این موضوع به خبرنگار گفتند که Mechanize Work قبلاً با Anthropic در مورد محیط‌های RL همکاری داشته است. Mechanize Work و Anthropic از اظهار نظر در مورد این همکاری خودداری کردند.

استارت‌آپ‌های دیگر حدس می‌زنند که محیط‌های RL در خارج از آزمایشگاه‌های هوش مصنوعی تأثیرگذار خواهند بود. Prime Intellect – یک استارت‌آپ با حمایت آندری کارپاتی، پژوهشگر هوش مصنوعی، Founders Fund و Menlo Ventures – توسعه‌دهندگان کوچک‌تر را با محیط‌های RL خود هدف قرار می‌دهد.

ماه گذشته، Prime Intellect یک مرکز محیط‌های RL راه‌اندازی کرد که هدف آن تبدیل شدن به یک «Hugging Face برای محیط‌های RL» است. ایده این است که به توسعه‌دهندگان متن‌باز دسترسی به همان منابعی را بدهیم که آزمایشگاه‌های بزرگ هوش مصنوعی دارند و در این فرآیند، دسترسی آن توسعه‌دهندگان به منابع محاسباتی را بفروشیم.

به گفته ویل براون، پژوهشگر Prime Intellect، آموزش به‌طور کلی در محیط‌های RL توانا می‌تواند گران‌تر از تکنیک‌های آموزش هوش مصنوعی قبلی باشد. در کنار استارت‌آپ‌هایی که محیط‌های RL می‌سازند، فرصت دیگری برای ارائه‌دهندگان GPU وجود دارد که می‌توانند این فرآیند را تقویت کنند.

براون در مصاحبه‌ای گفت: «محیط‌های RL آنقدر بزرگ خواهند بود که هیچ شرکتی نتواند بر آن تسلط یابد. بخشی از کاری که ما انجام می‌دهیم فقط تلاش برای ایجاد زیرساخت متن‌باز خوب در اطراف آن است. خدماتی که ما می‌فروشیم محاسبات است، بنابراین یک ورودی مناسب برای استفاده از GPU است، اما ما به این موضوع بیشتر در بلندمدت فکر می‌کنیم.»

آیا مقیاس‌پذیر خواهد بود؟

پرسش باز در مورد محیط‌های RL این است که آیا این تکنیک مانند روش‌های آموزش هوش مصنوعی قبلی مقیاس‌پذیر خواهد بود یا خیر.

یادگیری تقویتی در طول سال گذشته به برخی از بزرگ‌ترین جهش‌ها در هوش مصنوعی قدرت داده است، از جمله مدل‌هایی مانند o1 OpenAI و Claude Opus 4 Anthropic. این‌ها پیشرفت‌های مهمی هستند زیرا روش‌هایی که قبلاً برای بهبود مدل‌های هوش مصنوعی استفاده می‌شد، اکنون بازدهی کمتری نشان می‌دهند.

محیط‌ها بخشی از سرمایه‌گذاری بزرگ‌تر آزمایشگاه‌های هوش مصنوعی در RL هستند، که بسیاری معتقدند با افزودن داده‌ها و منابع محاسباتی بیشتر به این فرآیند، به پیشرفت خود ادامه خواهد داد. برخی از پژوهشگران OpenAI که در پشت o1 قرار دارند، قبلاً به خبرنگار گفته بودند که این شرکت در ابتدا در مدل‌های استدلال هوش مصنوعی سرمایه‌گذاری کرده است – که از طریق سرمایه‌گذاری در RL و محاسبه زمان آزمایش ایجاد شده‌اند – زیرا فکر می‌کردند به خوبی مقیاس‌پذیر خواهند بود.

بهترین راه برای مقیاس‌بندی RL هنوز مشخص نیست، اما به نظر می‌رسد محیط‌ها یک رقیب امیدوارکننده باشند. به جای اینکه به سادگی به چت‌بات‌ها برای پاسخ‌های متنی پاداش داده شود، آن‌ها به عامل‌ها اجازه می‌دهند در شبیه‌سازی‌ها با ابزارها و رایانه‌ها در اختیارشان عمل کنند. این بسیار پرهزینه‌تر است، اما به‌طور بالقوه پاداش بیشتری دارد.

برخی تردید دارند که همه این محیط‌های RL به نتیجه برسند. راس تیلور، رهبر سابق پژوهش هوش مصنوعی با متا که General Reasoning را تأسیس کرد، به خبرنگار می‌گوید که محیط‌های RL مستعد هک پاداش هستند. این فرآیندی است که در آن مدل‌های هوش مصنوعی برای دریافت پاداش تقلب می‌کنند، بدون اینکه واقعاً کار را انجام دهند.

تیلور گفت: «من فکر می‌کنم مردم دشواری مقیاس‌بندی محیط‌ها را دست کم می‌گیرند. حتی بهترین [محیط‌های RL] که به طور عمومی در دسترس هستند، معمولاً بدون اصلاح جدی کار نمی‌کنند.»

شروین وو، رئیس مهندسی OpenAI برای تجارت API خود، در یک پادکست اخیر گفت که در مورد استارت‌آپ‌های محیط RL «کوتاه» بود. وو خاطرنشان کرد که این یک فضای بسیار رقابتی است، اما همچنین پژوهش هوش مصنوعی آنقدر سریع در حال تکامل است که خدمت‌رسانی خوب به آزمایشگاه‌های هوش مصنوعی دشوار است.

کارپاتی، سرمایه‌گذار Prime Intellect که محیط‌های RL را یک پیشرفت بالقوه نامیده است، همچنین در مورد فضای RL به‌طور کلی هشدار داده است. او در پستی در X، نگرانی‌هایی را در مورد میزان پیشرفت هوش مصنوعی که می‌توان از RL استخراج کرد، مطرح کرد.

کارپاتی گفت: «من نسبت به محیط‌ها و تعاملات عامل‌محور خوشبین هستم، اما به طور خاص نسبت به یادگیری تقویتی بدبین هستم.»

منبع : techcrunch.com

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *