روز چهارشنبه، ویکیمدیا آلمان از یک پایگاه داده جدید رونمایی کرد که حجم عظیم دانش ویکیپدیا را برای مدلهای هوش مصنوعی در دسترستر میکند.
این سیستم که پروژه امبدینگ (Embedding) ویکیداده نام دارد، از یک جستجوی معنایی مبتنی بر بردار استفاده میکند؛ این تکنیک به رایانهها کمک میکند تا معنا و روابط بین کلمات را در دادههای موجود در ویکیپدیا و پلتفرمهای مرتبط با آن درک کنند. این دادهها شامل تقریباً ۱۲۰ میلیون ورودی است.
این پروژه، همراه با پشتیبانی جدید از پروتکل متن مدل (MCP)، استانداردی که به سیستمهای هوش مصنوعی کمک میکند تا با منابع داده ارتباط برقرار کنند، دسترسی به دادهها را برای پرسوجوهای زبان طبیعی از LLMها (مدلهای زبانی بزرگ) آسانتر میکند.
این پروژه توسط شاخه آلمانی ویکیمدیا با همکاری شرکت جستجوی عصبی Jina.AI و DataStax، یک شرکت دادههای آموزشی بیدرنگ متعلق به IBM، انجام شده است.
ویکیداده سالهاست که دادههای قابل خواندن توسط ماشین را از داراییهای ویکیمدیا ارائه میدهد، اما ابزارهای از پیش موجود فقط امکان جستجوی کلمات کلیدی و پرسوجوهای SPARQL، یک زبان پرسوجوی تخصصی را فراهم میکردند. سیستم جدید با سیستمهای تولید تقویتشده با بازیابی (RAG) که به مدلهای هوش مصنوعی اجازه میدهد اطلاعات خارجی را دریافت کنند، بهتر کار میکند و به توسعهدهندگان این فرصت را میدهد تا مدلهای خود را در دانش تأیید شده توسط ویراستاران ویکیپدیا قرار دهند.
این دادهها همچنین به گونهای ساختار یافتهاند که زمینه معنایی حیاتی را فراهم کنند. برای مثال، پرسوجو از پایگاه داده برای کلمه “دانشمند”، فهرستهایی از دانشمندان هستهای برجسته و همچنین دانشمندانی که در آزمایشگاههای بل کار میکردند، تولید میکند. همچنین ترجمههایی از کلمه “دانشمند” به زبانهای مختلف، تصویری از دانشمندان در حال کار که توسط ویکیمدیا تأیید شده است و برونیابیهایی به مفاهیم مرتبط مانند “محقق” و “دانشمند” نیز وجود دارد.
این پایگاه داده به طور عمومی در Toolforge قابل دسترسی است. ویکیداده همچنین در تاریخ ۱۷ مهر یک وبینار برای توسعهدهندگان علاقهمند برگزار میکند.
پروژه جدید در حالی ارائه میشود که توسعهدهندگان هوش مصنوعی برای یافتن منابع داده باکیفیت که میتوان از آنها برای تنظیم دقیق مدلها استفاده کرد، در تلاش هستند. خود سیستمهای آموزشی پیچیدهتر شدهاند و اغلب به عنوان محیطهای آموزشی پیچیده و نه مجموعههای داده ساده مونتاژ میشوند، اما همچنان برای عملکرد خوب به دادههای دقیقاً تنظیمشده نیاز دارند. برای استقرارهایی که نیاز به دقت بالایی دارند، نیاز به دادههای قابل اعتماد به ویژه فوری است و در حالی که برخی ممکن است به ویکیپدیا نگاه تحقیرآمیز داشته باشند، دادههای آن به طور قابل توجهی واقعیتمحورتر از مجموعههای داده فراگیر مانند Common Crawl است، که مجموعهای عظیم از صفحات وب است که از سراسر اینترنت جمعآوری شدهاند.
در برخی موارد، فشار برای دادههای باکیفیت میتواند پیامدهای پرهزینهای برای آزمایشگاههای هوش مصنوعی داشته باشد. در مرداد ماه، Anthropic پیشنهاد داد با پرداخت ۱.۵ میلیارد دلار برای پایان دادن به هرگونه ادعای تخلف، با گروهی از نویسندگان که آثارشان به عنوان ماده آموزشی استفاده شده بود، به توافق برسد.
فیلیپ سعده، مدیر پروژه هوش مصنوعی ویکیداده، در بیانیهای به مطبوعات، بر استقلال پروژه خود از آزمایشگاههای بزرگ هوش مصنوعی یا شرکتهای بزرگ فناوری تأکید کرد. سعده به خبرنگاران گفت: «راهاندازی این پروژه امبدینگ نشان میدهد که هوش مصنوعی قدرتمند نباید توسط تعداد انگشتشماری از شرکتها کنترل شود.» «این میتواند باز، مشارکتی و ساخته شده برای خدمت به همه باشد.»