روز پنجشنبه، ۱۵ آبان ۱۴۰۴، موسسه لاد از اولین دور جوایز “اسلینگشات” خود رونمایی کرد که هدف آن “پیشبرد علم و عمل در زمینه هوش مصنوعی” است.
برنامه اسلینگشات که به عنوان یک شتابدهنده برای محققان طراحی شده است، قصد دارد منابعی را فراهم کند که در اکثر محیطهای آکادمیک در دسترس نیستند، این منابع میتوانند شامل بودجه، قدرت محاسباتی یا پشتیبانی از محصول و مهندسی باشند. در عوض، دریافتکنندگان متعهد میشوند که یک محصول نهایی ارائه دهند، خواه یک استارتاپ باشد، یک پایگاه کد منبع باز یا نوع دیگری از دستاورد.
اولین گروه شامل پانزده پروژه است که تمرکز ویژهای بر مشکل دشوار ارزیابی هوش مصنوعی دارند. برخی از این پروژهها ممکن است برای خوانندگان این منبع خبری آشنا باشند، از جمله معیار کدنویسی خط فرمان Terminal Bench و آخرین نسخه پروژه طولانیمدت ARC-AGI.
برخی دیگر رویکردی تازه به یک مسئله ارزیابی دیرینه دارند. Formula Code، که توسط محققان CalTech و UT Austin ساخته شده است، قصد دارد ارزیابی از توانایی عوامل هوش مصنوعی در بهینهسازی کد موجود ارائه دهد، در حالی که BizBench مستقر در کلمبیا یک معیار جامع برای “عوامل هوش مصنوعی یقه سفید” پیشنهاد میکند. سایر جوایز به بررسی ساختارهای جدید برای یادگیری تقویتی یا فشردهسازی مدل میپردازند.
جان بودا یانگ، بنیانگذار SWE-Bench نیز به عنوان رهبر پروژه جدید CodeClash بخشی از این گروه است. CodeClash با الهام از موفقیت SWE-Bench، کد را از طریق یک چارچوب پویا مبتنی بر رقابت ارزیابی میکند، که یانگ امیدوار است که بتواند…
یانگ به این منبع خبری گفت: “من فکر میکنم ارزیابی مداوم افراد بر روی معیارهای اصلی شخص ثالث باعث پیشرفت میشود. من کمی نگران آیندهای هستم که در آن معیارها فقط مختص شرکتها شوند.”








