بنیان‌گذار RSS پروتکل جدید صدور مجوز داده‌های هوش مصنوعی راه‌اندازی کرد

علیرضا شهریور 19, 1404

0 0 4 دقیقه مطالعه

پس از توافق 1.5 میلیارد دلاری مربوط به حق تکثیر Anthropic، صنعت هوش مصنوعی در حال کنار آمدن با مشکل داده‌های آموزشی خود است. حدود 40 پرونده دیگر نیز در جریان است که به دنبال جبران خسارت برای داده‌های بدون مجوز هستند، از جمله پرونده‌ای که Midjourney را به دلیل ایجاد تصاویر سوپرمن به دادگاه می‌کشاند.

بدون وجود یک سیستم صدور مجوز، شرکت‌های هوش مصنوعی ممکن است با سیلی از دادخواست‌های مربوط به حق تکثیر مواجه شوند که برخی نگران هستند که این موضوع به طور دائم صنعت را عقب نگه دارد.

اکنون، گروهی از متخصصان فناوری و ناشران وب سیستمی را راه‌اندازی کرده‌اند که صدور مجوز داده را در مقیاس وسیع امکان‌پذیر می‌کند، البته اگر شرکت‌های هوش مصنوعی از آن استقبال کنند. این سیستم که Real Simple Licensing (RSL) نام دارد، در حال حاضر توسط ناشران بزرگ وب مانند Reddit، Quora و Yahoo پشتیبانی می‌شود. سوال اصلی اکنون این است که آیا این حرکت کافی خواهد بود تا آزمایشگاه‌های بزرگ هوش مصنوعی را به میز مذاکره بکشاند یا خیر.

به گفته Eckart Walther، یکی از بنیانگذاران RSL و همچنین یکی از خالقان استاندارد RSS، هدف ایجاد یک سیستم صدور مجوز داده‌های آموزشی بود که بتواند در سراسر اینترنت مقیاس‌پذیر باشد. Walther به خبرنگار گفت: «ما نیاز به توافق‌نامه‌های صدور مجوز ماشین‌خوانا برای اینترنت داریم. این دقیقاً همان چیزی است که RSL حل می‌کند.»

سال‌هاست که گروه‌هایی مانند Dataset Providers Alliance برای شیوه‌های جمع‌آوری شفاف‌تر تلاش می‌کنند، اما RSL اولین تلاش برای ایجاد یک زیرساخت فنی و حقوقی است که می‌تواند آن را در عمل اجرایی کند. از نظر فنی، پروتکل RSL شرایط مجوز خاصی را مشخص می‌کند که یک ناشر می‌تواند برای محتوای خود تعیین کند، چه این بدان معنا باشد که شرکت‌های هوش مصنوعی به یک مجوز سفارشی نیاز دارند یا باید مقررات Creative Commons را اتخاذ کنند. وب‌سایت‌های شرکت‌کننده این شرایط را به عنوان بخشی از فایل “robots.txt” خود در یک قالب از پیش تعیین شده قرار می‌دهند، که شناسایی اینکه کدام داده‌ها تحت چه شرایطی قرار می‌گیرند را آسان می‌کند.

از نظر حقوقی، تیم RSL یک سازمان صدور مجوز جمعی به نام RSL Collective ایجاد کرده است که می‌تواند در مورد شرایط مذاکره کند و حق امتیاز جمع‌آوری کند، درست مانند ASCAP برای موسیقی‌دانان یا MPLC برای فیلم‌ها. مانند موسیقی و فیلم، هدف این است که به دارندگان مجوز یک نقطه تماس واحد برای پرداخت حق امتیاز داده شود و به صاحبان حق راهی برای تعیین شرایط با ده‌ها دارنده مجوز بالقوه به طور همزمان ارائه شود.

تعدادی از ناشران وب از جمله یاهو، ردیت، مدیوم، O’Reilly Media، Ziff Davis (مالک Mashable و Cnet)، Internet Brands (مالک WebMD)، People Inc. و The Daily Beast به این مجموعه پیوسته‌اند. سایرین مانند Fastly، Quora و Adweek از این استاندارد بدون پیوستن به این مجموعه پشتیبانی می‌کنند.

شایان ذکر است، RSL Collective شامل برخی از ناشرانی است که از قبل قراردادهای صدور مجوز دارند، به ویژه Reddit، که سالانه حدود 60 میلیون دلار از گوگل برای استفاده از داده‌های آموزشی خود دریافت می‌کند. هیچ چیز مانع از آن نمی‌شود که شرکت‌ها معاملات خود را در سیستم RSL انجام دهند، درست مانند تیلور سویفت که می‌تواند شرایط ویژه‌ای را برای صدور مجوز تعیین کند در حالی که همچنان از طریق ASCAP حق امتیاز جمع‌آوری می‌کند. اما برای ناشرانی که آنقدر کوچک هستند که نمی‌توانند معاملات خود را انجام دهند، شرایط جمعی RSL احتمالاً تنها گزینه خواهد بود.

اما در حالی که تعیین زمان پخش یک آهنگ به اندازه کافی آسان است، مدل‌های هوش مصنوعی هنگام محاسبه زمان پرداخت حق امتیاز برای یک قطعه خاص از داده‌های آموزشی، چالش‌های منحصر به فردی را ایجاد می‌کنند. این موضوع برای محصولی مانند AI Search Abstracts گوگل ساده‌تر است، که داده‌ها را از وب در زمان واقعی جمع‌آوری می‌کند و انتساب دقیق برای هر واقعیت را حفظ می‌کند.

اما اگر آموزش هنگام وقوع ثبت نشود، تأیید اینکه یک سند معین در یک LLM وارد شده است تقریباً غیرممکن است. این موضوع به ویژه اگر ناشران درخواست کنند به ازای هر استنتاج به جای دریافت یک هزینه کلی پرداخت شود، که گزینه‌ای است که توسط یکی از مجوزهای سهام RSL ارائه می‌شود، چالش‌برانگیز است.

با این حال، سازندگان RSL معتقدند که شرکت‌های هوش مصنوعی قادر به مدیریت این دشواری خواهند بود. داگ لیدز، یکی از بنیانگذاران RSL و مدیرعامل سابق IAC Publishing، می‌گوید: «برخی از توافق‌نامه‌های صدور مجوزی که قبلاً انجام داده‌اند، آنها را ملزم به گزارش در مورد آن کرده است، بنابراین این امکان وجود دارد. لازم نیست عالی باشد. فقط باید به اندازه کافی خوب باشد تا به مردم پول پرداخت شود.»

سوال بزرگتر این است که آیا شرکت‌های هوش مصنوعی این سیستم را می‌پذیرند یا خیر. همانطور که موفقیت شرکت‌هایی مانند ScaleAI و Mercor نشان می‌دهد، آزمایشگاه‌های پیشرو مشکلی برای پرداخت هزینه داده ندارند، اما وب به طور سنتی به عنوان منبعی برای داده‌های ارزان و کم کیفیت در نظر گرفته شده است. با وجود مجموعه‌های داده‌ای مانند Common Crawl که از قبل در دسترس هستند، ممکن است استخراج حق امتیاز از چیزی که آزمایشگاه‌ها عادت دارند به صورت رایگان دریافت کنند، چالش‌برانگیز باشد. و همانطور که درگیری اخیر بین CloudFlare و Perplexity نشان می‌دهد، تشخیص تفاوت بین وب‌گردی و مرور پیشرفته با ماشین آسان نیست.

وقتی این سوال را از لیدز پرسیدم، او به اظهارات اخیر رهبران هوش مصنوعی اشاره کرد که خواستار سیستمی مانند RSL هستند، به ویژه از Sundar Pichai در اجلاس Dealbook سال گذشته. چه درخواست‌ها برای یک سیستم صدور مجوز جدی باشد یا نه، تیم RSL قصد دارد آنها را به آن وادار کند. لیدز به من گفت: «آنها علناً به همه گفته‌اند که چیزی شبیه به این باید وجود داشته باشد. ما به یک پروتکل نیاز داریم. ما به یک سیستم نیاز داریم.»

اکنون، ممکن است یکی به دست آورند.

منبع : techcrunch.com

Post Views: 25