با این حجم از سرمایه‌گذاری که به سمت استارتاپ‌های هوش مصنوعی سرازیر شده، الان بهترین زمان برای محققان هوش مصنوعی است که ایده‌های خود را آزمایش کنند. و اگر این ایده به اندازه کافی جدید باشد، ممکن است راحت‌تر بتوانید منابع مورد نیاز خود را به عنوان یک شرکت مستقل به دست آورید تا اینکه بخواهید در یکی از آزمایشگاه‌های بزرگ فعالیت کنید.

این داستان استارتاپ اینسپشن (Inception) است، که در حال توسعه مدل‌های هوش مصنوعی مبتنی بر انتشار است و به تازگی ۵۰ میلیون دلار در دور سرمایه‌گذاری بذری به رهبری Menlo Ventures جذب کرده است. اندرو اِنگ (Andrew Ng) و آندری کارپاتی (Andrej Karpathy) نیز سرمایه‌گذاری فرشته‌ای (angel funding) اضافی ارائه کردند.

رهبر این پروژه، استفانو ارمون (Stefano Ermon)، استاد دانشگاه استنفورد است که تحقیقاتش بر روی مدل‌های انتشار متمرکز است. این مدل‌ها خروجی‌ها را از طریق پالایش تکراری تولید می‌کنند، نه کلمه به کلمه. این مدل‌ها سیستم‌های هوش مصنوعی مبتنی بر تصویر مانند Stable Diffusion، Midjourney و Sora را تقویت می‌کنند. ارمون که قبل از رونق هوش مصنوعی و هیجان‌انگیز شدن این سیستم‌ها روی آن‌ها کار کرده است، از Inception برای اعمال همین مدل‌ها در طیف گسترده‌تری از وظایف استفاده می‌کند.

این شرکت به همراه این سرمایه‌گذاری، نسخه جدیدی از مدل Mercury خود را منتشر کرد که برای توسعه نرم‌افزار طراحی شده است. Mercury در حال حاضر در تعدادی از ابزارهای توسعه، از جمله ProxyAI، Buildglare و Kilo Code ادغام شده است. از همه مهم‌تر، ارمون می‌گوید رویکرد انتشار به مدل‌های Inception کمک می‌کند تا در دو معیار مهم صرفه‌جویی کنند: تأخیر (زمان پاسخگویی) و هزینه محاسباتی.

ارمون می‌گوید: «این LLMهای مبتنی بر انتشار بسیار سریع‌تر و کارآمدتر از آن چیزی هستند که بقیه دارند می‌سازند. این فقط یک رویکرد کاملاً متفاوت است که نوآوری‌های زیادی را می‌توان در آن ارائه کرد.»

برای درک تفاوت فنی، به کمی پیشینه نیاز است. مدل‌های انتشار از نظر ساختاری با مدل‌های خودرگرسیونی، که بر خدمات هوش مصنوعی مبتنی بر متن تسلط دارند، متفاوت هستند. مدل‌های خودرگرسیونی مانند GPT-5 و Gemini به صورت ترتیبی کار می‌کنند و هر کلمه یا قطعه کلمه بعدی را بر اساس مطالب پردازش‌شده قبلی پیش‌بینی می‌کنند. مدل‌های انتشار، که برای تولید تصویر آموزش داده شده‌اند، رویکردی جامع‌تر اتخاذ می‌کنند و ساختار کلی یک پاسخ را به صورت تدریجی تغییر می‌دهند تا با نتیجه دلخواه مطابقت داشته باشد.

دانش مرسوم این است که از مدل‌های خودرگرسیونی برای برنامه‌های کاربردی متنی استفاده شود، و این رویکرد برای نسل‌های اخیر مدل‌های هوش مصنوعی بسیار موفقیت‌آمیز بوده است. اما مجموعه رو به رشدی از تحقیقات نشان می‌دهد که مدل‌های انتشار ممکن است هنگام پردازش مقادیر زیادی متن یا مدیریت محدودیت‌های داده، عملکرد بهتری داشته باشند. به گفته ارمون، این ویژگی‌ها هنگام انجام عملیات بر روی پایگاه‌های کد بزرگ، به یک مزیت واقعی تبدیل می‌شوند.

مدل‌های انتشار همچنین انعطاف‌پذیری بیشتری در نحوه استفاده از سخت‌افزار دارند، که با توجه به مشخص شدن نیازهای زیرساختی هوش مصنوعی، یک مزیت بسیار مهم است. در حالی که مدل‌های خودرگرسیونی باید عملیات را یکی پس از دیگری انجام دهند، مدل‌های انتشار می‌توانند بسیاری از عملیات را به طور همزمان پردازش کنند، که این امر باعث کاهش قابل توجه تأخیر در وظایف پیچیده می‌شود.

ارمون می‌گوید: «ما با بیش از 1000 توکن در ثانیه محک زده شده‌ایم، که بسیار بالاتر از هر چیزی است که با استفاده از فناوری‌های خودرگرسیونی موجود امکان‌پذیر است، زیرا سیستم ما به صورت موازی ساخته شده است. هدف از ساخت آن، واقعاً سریع بودن است.»

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *