روز چهارشنبه، ویکی‌مدیا آلمان از یک پایگاه داده جدید رونمایی کرد که حجم عظیم دانش ویکی‌پدیا را برای مدل‌های هوش مصنوعی در دسترس‌تر می‌کند.

این سیستم که پروژه امبدینگ (Embedding) ویکی‌داده نام دارد، از یک جستجوی معنایی مبتنی بر بردار استفاده می‌کند؛ این تکنیک به رایانه‌ها کمک می‌کند تا معنا و روابط بین کلمات را در داده‌های موجود در ویکی‌پدیا و پلتفرم‌های مرتبط با آن درک کنند. این داده‌ها شامل تقریباً ۱۲۰ میلیون ورودی است.

این پروژه، همراه با پشتیبانی جدید از پروتکل متن مدل (MCP)، استانداردی که به سیستم‌های هوش مصنوعی کمک می‌کند تا با منابع داده ارتباط برقرار کنند، دسترسی به داده‌ها را برای پرس‌وجوهای زبان طبیعی از LLMها (مدل‌های زبانی بزرگ) آسان‌تر می‌کند.

این پروژه توسط شاخه آلمانی ویکی‌مدیا با همکاری شرکت جستجوی عصبی Jina.AI و DataStax، یک شرکت داده‌های آموزشی بی‌درنگ متعلق به IBM، انجام شده است.

ویکی‌داده سال‌هاست که داده‌های قابل خواندن توسط ماشین را از دارایی‌های ویکی‌مدیا ارائه می‌دهد، اما ابزارهای از پیش موجود فقط امکان جستجوی کلمات کلیدی و پرس‌وجوهای SPARQL، یک زبان پرس‌وجوی تخصصی را فراهم می‌کردند. سیستم جدید با سیستم‌های تولید تقویت‌شده با بازیابی (RAG) که به مدل‌های هوش مصنوعی اجازه می‌دهد اطلاعات خارجی را دریافت کنند، بهتر کار می‌کند و به توسعه‌دهندگان این فرصت را می‌دهد تا مدل‌های خود را در دانش تأیید شده توسط ویراستاران ویکی‌پدیا قرار دهند.

این داده‌ها همچنین به گونه‌ای ساختار یافته‌اند که زمینه معنایی حیاتی را فراهم کنند. برای مثال، پرس‌وجو از پایگاه داده برای کلمه “دانشمند”، فهرست‌هایی از دانشمندان هسته‌ای برجسته و همچنین دانشمندانی که در آزمایشگاه‌های بل کار می‌کردند، تولید می‌کند. همچنین ترجمه‌هایی از کلمه “دانشمند” به زبان‌های مختلف، تصویری از دانشمندان در حال کار که توسط ویکی‌مدیا تأیید شده است و برون‌یابی‌هایی به مفاهیم مرتبط مانند “محقق” و “دانشمند” نیز وجود دارد.

این پایگاه داده به طور عمومی در Toolforge قابل دسترسی است. ویکی‌داده همچنین در تاریخ ۱۷ مهر یک وبینار برای توسعه‌دهندگان علاقه‌مند برگزار می‌کند.

پروژه جدید در حالی ارائه می‌شود که توسعه‌دهندگان هوش مصنوعی برای یافتن منابع داده باکیفیت که می‌توان از آن‌ها برای تنظیم دقیق مدل‌ها استفاده کرد، در تلاش هستند. خود سیستم‌های آموزشی پیچیده‌تر شده‌اند و اغلب به عنوان محیط‌های آموزشی پیچیده و نه مجموعه‌های داده ساده مونتاژ می‌شوند، اما همچنان برای عملکرد خوب به داده‌های دقیقاً تنظیم‌شده نیاز دارند. برای استقرارهایی که نیاز به دقت بالایی دارند، نیاز به داده‌های قابل اعتماد به ویژه فوری است و در حالی که برخی ممکن است به ویکی‌پدیا نگاه تحقیرآمیز داشته باشند، داده‌های آن به طور قابل توجهی واقعیت‌محورتر از مجموعه‌های داده فراگیر مانند Common Crawl است، که مجموعه‌ای عظیم از صفحات وب است که از سراسر اینترنت جمع‌آوری شده‌اند.

در برخی موارد، فشار برای داده‌های باکیفیت می‌تواند پیامدهای پرهزینه‌ای برای آزمایشگاه‌های هوش مصنوعی داشته باشد. در مرداد ماه، Anthropic پیشنهاد داد با پرداخت ۱.۵ میلیارد دلار برای پایان دادن به هرگونه ادعای تخلف، با گروهی از نویسندگان که آثارشان به عنوان ماده آموزشی استفاده شده بود، به توافق برسد.

فیلیپ سعده، مدیر پروژه هوش مصنوعی ویکی‌داده، در بیانیه‌ای به مطبوعات، بر استقلال پروژه خود از آزمایشگاه‌های بزرگ هوش مصنوعی یا شرکت‌های بزرگ فناوری تأکید کرد. سعده به خبرنگاران گفت: «راه‌اندازی این پروژه امبدینگ نشان می‌دهد که هوش مصنوعی قدرتمند نباید توسط تعداد انگشت‌شماری از شرکت‌ها کنترل شود.» «این می‌تواند باز، مشارکتی و ساخته شده برای خدمت به همه باشد.»

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *