سالهاست که مدیران عامل شرکتهای بزرگ فناوری، دیدگاههایی را در مورد عاملهای هوش مصنوعی مطرح میکنند که میتوانند بهطور خودکار از برنامههای نرمافزاری برای انجام وظایف برای مردم استفاده کنند. اما اگر عاملهای هوش مصنوعی مصرفی امروزی را امتحان کنید، خواه ChatGPT Agent شرکت OpenAI باشد یا Comet شرکت Perplexity، بهسرعت متوجه خواهید شد که این فناوری هنوز چقدر محدود است. قویتر کردن عاملهای هوش مصنوعی ممکن است به مجموعهای جدید از تکنیکها نیاز داشته باشد که صنعت هنوز در حال کشف آنهاست.
یکی از این تکنیکها، شبیهسازی دقیق فضاهای کاری است که در آن عاملها میتوانند برای وظایف چندمرحلهای آموزش ببینند، که به عنوان محیطهای یادگیری تقویتی (RL) شناخته میشوند. درست مانند مجموعه دادههای برچسبگذاریشده که به موج قبلی هوش مصنوعی قدرت دادند، به نظر میرسد محیطهای RL به یک عنصر حیاتی در توسعه عاملها تبدیل شدهاند.
پژوهشگران، بنیانگذاران و سرمایهگذاران هوش مصنوعی به خبرنگار میگویند که آزمایشگاههای پیشرو هوش مصنوعی اکنون خواستار محیطهای RL بیشتری هستند و کمبودی در استارتآپهایی که امیدوارند آنها را تأمین کنند، وجود ندارد.
جنیفر لی، شریک عمومی Andreessen Horowitz، در مصاحبهای با خبرنگار گفت: «تمام آزمایشگاههای بزرگ هوش مصنوعی در حال ساخت محیطهای RL در داخل هستند. اما همانطور که میتوانید تصور کنید، ایجاد این مجموعه دادهها بسیار پیچیده است، بنابراین آزمایشگاههای هوش مصنوعی نیز به فروشندگان شخص ثالثی نگاه میکنند که میتوانند محیطها و ارزیابیهای باکیفیت ایجاد کنند. همه به این فضا نگاه میکنند.»
فشار برای محیطهای RL، طبقه جدیدی از استارتآپهای با بودجه مناسب مانند Mechanize Work و Prime Intellect را به وجود آورده است که هدفشان رهبری این فضا است. در همین حال، شرکتهای بزرگ برچسبگذاری داده مانند Mercor و Surge میگویند که برای همگام شدن با تغییرات صنعت از مجموعه دادههای ایستا به شبیهسازیهای تعاملی، سرمایهگذاری بیشتری در محیطهای RL انجام میدهند. آزمایشگاههای بزرگ نیز در حال بررسی سرمایهگذاری سنگین هستند: طبق گزارش The Information، رهبران Anthropic در مورد صرف بیش از ۱ میلیارد دلار برای محیطهای RL در سال آینده بحث کردهاند.
امید سرمایهگذاران و بنیانگذاران این است که یکی از این استارتآپها به عنوان «Scale AI برای محیطها» ظاهر شود، که اشاره به قدرت برچسبگذاری داده ۲۹ میلیارد دلاری دارد که به عصر چتباتها قدرت داد.
پرسش این است که آیا محیطهای RL واقعاً مرزهای پیشرفت هوش مصنوعی را جابجا خواهند کرد یا خیر.
محیط RL چیست؟
در هسته خود، محیطهای RL زمینهای تمرینی هستند که شبیهسازی میکنند یک عامل هوش مصنوعی در یک برنامه نرمافزاری واقعی چه کاری انجام میدهد. یکی از بنیانگذاران در مصاحبهای اخیر ساخت آنها را «مانند ایجاد یک بازی ویدیویی بسیار خستهکننده» توصیف کرد.
به عنوان مثال، یک محیط میتواند یک مرورگر Chrome را شبیهسازی کند و به یک عامل هوش مصنوعی وظیفه خرید یک جفت جوراب در آمازون را بدهد. به عامل بر اساس عملکردش نمره داده میشود و وقتی موفق میشود (در این مورد، خرید یک جفت جوراب مناسب)، سیگنال پاداش ارسال میشود.
در حالی که چنین وظیفهای نسبتاً ساده به نظر میرسد، مکانهای زیادی وجود دارد که یک عامل هوش مصنوعی میتواند در آن به مشکل بخورد. ممکن است در پیمایش منوهای کشویی صفحه وب گم شود یا جورابهای زیادی بخرد. و از آنجایی که توسعهدهندگان نمیتوانند دقیقاً پیشبینی کنند که یک عامل چه اشتباهی مرتکب میشود، خود محیط باید به اندازه کافی قوی باشد تا هر رفتار غیرمنتظرهای را ثبت کند و همچنان بازخورد مفیدی ارائه دهد. این باعث میشود ساخت محیطها بسیار پیچیدهتر از یک مجموعه داده ایستا باشد.
برخی از محیطها کاملاً قوی هستند و به عاملهای هوش مصنوعی اجازه میدهند از ابزارها استفاده کنند، به اینترنت دسترسی داشته باشند یا از برنامههای نرمافزاری مختلف برای تکمیل یک کار معین استفاده کنند. برخی دیگر باریکتر هستند و هدفشان کمک به یک عامل برای یادگیری وظایف خاص در برنامههای نرمافزاری سازمانی است.
در حالی که محیطهای RL در حال حاضر موضوع داغ در سیلیکونولی هستند، سابقه زیادی برای استفاده از این تکنیک وجود دارد. یکی از اولین پروژههای OpenAI در سال ۱۳۹۵ ساخت «RL Gyms» بود که بسیار شبیه به مفهوم مدرن محیطها بودند. در همان سال، Google DeepMind با استفاده از تکنیکهای RL در یک محیط شبیهسازیشده، AlphaGo را آموزش داد – یک سیستم هوش مصنوعی که میتوانست یک قهرمان جهان را در بازی تختهای Go شکست دهد.
آنچه در مورد محیطهای امروزی منحصربهفرد است این است که پژوهشگران در تلاش هستند تا عاملهای هوش مصنوعی کاربر رایانه را با مدلهای ترانسفورماتور بزرگ بسازند. برخلاف AlphaGo، که یک سیستم هوش مصنوعی تخصصی بود که در محیطهای بسته کار میکرد، عاملهای هوش مصنوعی امروزی آموزش داده میشوند تا قابلیتهای عمومیتری داشته باشند. پژوهشگران هوش مصنوعی امروزی نقطه شروع قویتری دارند، اما همچنین هدف پیچیدهای دارند که در آن ممکن است اشتباهات بیشتری رخ دهد.
یک میدان شلوغ
شرکتهای برچسبگذاری داده هوش مصنوعی مانند Scale AI، Surge و Mercor در تلاش هستند تا به این لحظه پاسخ دهند و محیطهای RL را بسازند. این شرکتها منابع بیشتری نسبت به بسیاری از استارتآپها در این فضا دارند، و همچنین روابط عمیقی با آزمایشگاههای هوش مصنوعی دارند.
ادوین چن، مدیر عامل Surge، به خبرنگار میگوید که اخیراً شاهد «افزایش چشمگیری» در تقاضا برای محیطهای RL در آزمایشگاههای هوش مصنوعی بوده است. Surge – که طبق گزارشها سال گذشته ۱.۲ میلیارد دلار درآمد از کار با آزمایشگاههای هوش مصنوعی مانند OpenAI، Google، Anthropic و Meta به دست آورده است – اخیراً یک سازمان داخلی جدید را به طور خاص برای ساخت محیطهای RL ایجاد کرده است.
Mercor، یک استارتآپ با ارزش ۱۰ میلیارد دلار، که با OpenAI، Meta و Anthropic نیز همکاری داشته است، به دنبال Surge است. Mercor به گفته مطالب بازاریابی که خبرنگار دیده است، در حال ارائه پیشنهاد به سرمایهگذاران برای ساخت محیطهای RL برای وظایف خاص دامنه مانند کدنویسی، مراقبتهای بهداشتی و حقوق است.
برندان فودی، مدیر عامل Mercor، در مصاحبهای به خبرنگار گفت که «تعداد کمی میدانند که فرصت پیرامون محیطهای RL واقعاً چقدر بزرگ است.»
Scale AI قبلاً بر فضای برچسبگذاری داده تسلط داشت، اما از زمانی که متا ۱۴ میلیارد دلار سرمایهگذاری کرد و مدیرعامل آن را استخدام کرد، جایگاه خود را از دست داده است. از آن زمان، گوگل و OpenAI، Scale AI را به عنوان مشتری کنار گذاشتند و این استارتآپ حتی برای کار برچسبگذاری داده در داخل متا با رقابت مواجه است. اما با این حال، Scale در تلاش است تا به این لحظه پاسخ دهد و محیطها را بسازد.
چتان رانه، رئیس محصول Scale AI برای عاملها و محیطهای RL، گفت: «این فقط ماهیت کسبوکاری است که [Scale AI] در آن قرار دارد. Scale ثابت کرده است که توانایی سازگاری سریع را دارد. ما این کار را در روزهای اولیه خودروهای خودران، اولین واحد تجاری خود، انجام دادیم. وقتی ChatGPT عرضه شد، Scale AI با آن سازگار شد. و اکنون، بار دیگر، ما با فضاهای مرزی جدید مانند عاملها و محیطها سازگار میشویم.»
برخی از بازیکنان جدیدتر از ابتدا منحصراً بر محیطها تمرکز میکنند. از جمله آنها Mechanize Work است، یک استارتآپ که تقریباً شش ماه پیش با هدف جسورانه «خودکارسازی همه مشاغل» تأسیس شد. با این حال، متیو بارنت، یکی از بنیانگذاران، به خبرنگار میگوید که شرکت او با محیطهای RL برای عاملهای کدنویسی هوش مصنوعی شروع میکند.
بارنت میگوید که Mechanize Work قصد دارد آزمایشگاههای هوش مصنوعی را با تعداد کمی محیط RL قوی تأمین کند، نه شرکتهای داده بزرگتری که طیف گستردهای از محیطهای RL ساده را ایجاد میکنند. تا به این لحظه، این استارتآپ به مهندسان نرمافزار حقوق ۵۰۰۰۰۰ دلاری برای ساخت محیطهای RL ارائه میدهد – بسیار بالاتر از آنچه یک پیمانکار ساعتی میتواند در Scale AI یا Surge به دست آورد.
دو منبع آشنا به این موضوع به خبرنگار گفتند که Mechanize Work قبلاً با Anthropic در مورد محیطهای RL همکاری داشته است. Mechanize Work و Anthropic از اظهار نظر در مورد این همکاری خودداری کردند.
استارتآپهای دیگر حدس میزنند که محیطهای RL در خارج از آزمایشگاههای هوش مصنوعی تأثیرگذار خواهند بود. Prime Intellect – یک استارتآپ با حمایت آندری کارپاتی، پژوهشگر هوش مصنوعی، Founders Fund و Menlo Ventures – توسعهدهندگان کوچکتر را با محیطهای RL خود هدف قرار میدهد.
ماه گذشته، Prime Intellect یک مرکز محیطهای RL راهاندازی کرد که هدف آن تبدیل شدن به یک «Hugging Face برای محیطهای RL» است. ایده این است که به توسعهدهندگان متنباز دسترسی به همان منابعی را بدهیم که آزمایشگاههای بزرگ هوش مصنوعی دارند و در این فرآیند، دسترسی آن توسعهدهندگان به منابع محاسباتی را بفروشیم.
به گفته ویل براون، پژوهشگر Prime Intellect، آموزش بهطور کلی در محیطهای RL توانا میتواند گرانتر از تکنیکهای آموزش هوش مصنوعی قبلی باشد. در کنار استارتآپهایی که محیطهای RL میسازند، فرصت دیگری برای ارائهدهندگان GPU وجود دارد که میتوانند این فرآیند را تقویت کنند.
براون در مصاحبهای گفت: «محیطهای RL آنقدر بزرگ خواهند بود که هیچ شرکتی نتواند بر آن تسلط یابد. بخشی از کاری که ما انجام میدهیم فقط تلاش برای ایجاد زیرساخت متنباز خوب در اطراف آن است. خدماتی که ما میفروشیم محاسبات است، بنابراین یک ورودی مناسب برای استفاده از GPU است، اما ما به این موضوع بیشتر در بلندمدت فکر میکنیم.»
آیا مقیاسپذیر خواهد بود؟
پرسش باز در مورد محیطهای RL این است که آیا این تکنیک مانند روشهای آموزش هوش مصنوعی قبلی مقیاسپذیر خواهد بود یا خیر.
یادگیری تقویتی در طول سال گذشته به برخی از بزرگترین جهشها در هوش مصنوعی قدرت داده است، از جمله مدلهایی مانند o1 OpenAI و Claude Opus 4 Anthropic. اینها پیشرفتهای مهمی هستند زیرا روشهایی که قبلاً برای بهبود مدلهای هوش مصنوعی استفاده میشد، اکنون بازدهی کمتری نشان میدهند.
محیطها بخشی از سرمایهگذاری بزرگتر آزمایشگاههای هوش مصنوعی در RL هستند، که بسیاری معتقدند با افزودن دادهها و منابع محاسباتی بیشتر به این فرآیند، به پیشرفت خود ادامه خواهد داد. برخی از پژوهشگران OpenAI که در پشت o1 قرار دارند، قبلاً به خبرنگار گفته بودند که این شرکت در ابتدا در مدلهای استدلال هوش مصنوعی سرمایهگذاری کرده است – که از طریق سرمایهگذاری در RL و محاسبه زمان آزمایش ایجاد شدهاند – زیرا فکر میکردند به خوبی مقیاسپذیر خواهند بود.
بهترین راه برای مقیاسبندی RL هنوز مشخص نیست، اما به نظر میرسد محیطها یک رقیب امیدوارکننده باشند. به جای اینکه به سادگی به چتباتها برای پاسخهای متنی پاداش داده شود، آنها به عاملها اجازه میدهند در شبیهسازیها با ابزارها و رایانهها در اختیارشان عمل کنند. این بسیار پرهزینهتر است، اما بهطور بالقوه پاداش بیشتری دارد.
برخی تردید دارند که همه این محیطهای RL به نتیجه برسند. راس تیلور، رهبر سابق پژوهش هوش مصنوعی با متا که General Reasoning را تأسیس کرد، به خبرنگار میگوید که محیطهای RL مستعد هک پاداش هستند. این فرآیندی است که در آن مدلهای هوش مصنوعی برای دریافت پاداش تقلب میکنند، بدون اینکه واقعاً کار را انجام دهند.
تیلور گفت: «من فکر میکنم مردم دشواری مقیاسبندی محیطها را دست کم میگیرند. حتی بهترین [محیطهای RL] که به طور عمومی در دسترس هستند، معمولاً بدون اصلاح جدی کار نمیکنند.»
شروین وو، رئیس مهندسی OpenAI برای تجارت API خود، در یک پادکست اخیر گفت که در مورد استارتآپهای محیط RL «کوتاه» بود. وو خاطرنشان کرد که این یک فضای بسیار رقابتی است، اما همچنین پژوهش هوش مصنوعی آنقدر سریع در حال تکامل است که خدمترسانی خوب به آزمایشگاههای هوش مصنوعی دشوار است.
کارپاتی، سرمایهگذار Prime Intellect که محیطهای RL را یک پیشرفت بالقوه نامیده است، همچنین در مورد فضای RL بهطور کلی هشدار داده است. او در پستی در X، نگرانیهایی را در مورد میزان پیشرفت هوش مصنوعی که میتوان از RL استخراج کرد، مطرح کرد.
کارپاتی گفت: «من نسبت به محیطها و تعاملات عاملمحور خوشبین هستم، اما به طور خاص نسبت به یادگیری تقویتی بدبین هستم.»
منبع : techcrunch.com