پس از توافق 1.5 میلیارد دلاری مربوط به حق تکثیر Anthropic، صنعت هوش مصنوعی در حال کنار آمدن با مشکل دادههای آموزشی خود است. حدود 40 پرونده دیگر نیز در جریان است که به دنبال جبران خسارت برای دادههای بدون مجوز هستند، از جمله پروندهای که Midjourney را به دلیل ایجاد تصاویر سوپرمن به دادگاه میکشاند.
بدون وجود یک سیستم صدور مجوز، شرکتهای هوش مصنوعی ممکن است با سیلی از دادخواستهای مربوط به حق تکثیر مواجه شوند که برخی نگران هستند که این موضوع به طور دائم صنعت را عقب نگه دارد.
اکنون، گروهی از متخصصان فناوری و ناشران وب سیستمی را راهاندازی کردهاند که صدور مجوز داده را در مقیاس وسیع امکانپذیر میکند، البته اگر شرکتهای هوش مصنوعی از آن استقبال کنند. این سیستم که Real Simple Licensing (RSL) نام دارد، در حال حاضر توسط ناشران بزرگ وب مانند Reddit، Quora و Yahoo پشتیبانی میشود. سوال اصلی اکنون این است که آیا این حرکت کافی خواهد بود تا آزمایشگاههای بزرگ هوش مصنوعی را به میز مذاکره بکشاند یا خیر.
به گفته Eckart Walther، یکی از بنیانگذاران RSL و همچنین یکی از خالقان استاندارد RSS، هدف ایجاد یک سیستم صدور مجوز دادههای آموزشی بود که بتواند در سراسر اینترنت مقیاسپذیر باشد. Walther به خبرنگار گفت: «ما نیاز به توافقنامههای صدور مجوز ماشینخوانا برای اینترنت داریم. این دقیقاً همان چیزی است که RSL حل میکند.»
سالهاست که گروههایی مانند Dataset Providers Alliance برای شیوههای جمعآوری شفافتر تلاش میکنند، اما RSL اولین تلاش برای ایجاد یک زیرساخت فنی و حقوقی است که میتواند آن را در عمل اجرایی کند. از نظر فنی، پروتکل RSL شرایط مجوز خاصی را مشخص میکند که یک ناشر میتواند برای محتوای خود تعیین کند، چه این بدان معنا باشد که شرکتهای هوش مصنوعی به یک مجوز سفارشی نیاز دارند یا باید مقررات Creative Commons را اتخاذ کنند. وبسایتهای شرکتکننده این شرایط را به عنوان بخشی از فایل “robots.txt” خود در یک قالب از پیش تعیین شده قرار میدهند، که شناسایی اینکه کدام دادهها تحت چه شرایطی قرار میگیرند را آسان میکند.
از نظر حقوقی، تیم RSL یک سازمان صدور مجوز جمعی به نام RSL Collective ایجاد کرده است که میتواند در مورد شرایط مذاکره کند و حق امتیاز جمعآوری کند، درست مانند ASCAP برای موسیقیدانان یا MPLC برای فیلمها. مانند موسیقی و فیلم، هدف این است که به دارندگان مجوز یک نقطه تماس واحد برای پرداخت حق امتیاز داده شود و به صاحبان حق راهی برای تعیین شرایط با دهها دارنده مجوز بالقوه به طور همزمان ارائه شود.
تعدادی از ناشران وب از جمله یاهو، ردیت، مدیوم، O’Reilly Media، Ziff Davis (مالک Mashable و Cnet)، Internet Brands (مالک WebMD)، People Inc. و The Daily Beast به این مجموعه پیوستهاند. سایرین مانند Fastly، Quora و Adweek از این استاندارد بدون پیوستن به این مجموعه پشتیبانی میکنند.
شایان ذکر است، RSL Collective شامل برخی از ناشرانی است که از قبل قراردادهای صدور مجوز دارند، به ویژه Reddit، که سالانه حدود 60 میلیون دلار از گوگل برای استفاده از دادههای آموزشی خود دریافت میکند. هیچ چیز مانع از آن نمیشود که شرکتها معاملات خود را در سیستم RSL انجام دهند، درست مانند تیلور سویفت که میتواند شرایط ویژهای را برای صدور مجوز تعیین کند در حالی که همچنان از طریق ASCAP حق امتیاز جمعآوری میکند. اما برای ناشرانی که آنقدر کوچک هستند که نمیتوانند معاملات خود را انجام دهند، شرایط جمعی RSL احتمالاً تنها گزینه خواهد بود.
اما در حالی که تعیین زمان پخش یک آهنگ به اندازه کافی آسان است، مدلهای هوش مصنوعی هنگام محاسبه زمان پرداخت حق امتیاز برای یک قطعه خاص از دادههای آموزشی، چالشهای منحصر به فردی را ایجاد میکنند. این موضوع برای محصولی مانند AI Search Abstracts گوگل سادهتر است، که دادهها را از وب در زمان واقعی جمعآوری میکند و انتساب دقیق برای هر واقعیت را حفظ میکند.
اما اگر آموزش هنگام وقوع ثبت نشود، تأیید اینکه یک سند معین در یک LLM وارد شده است تقریباً غیرممکن است. این موضوع به ویژه اگر ناشران درخواست کنند به ازای هر استنتاج به جای دریافت یک هزینه کلی پرداخت شود، که گزینهای است که توسط یکی از مجوزهای سهام RSL ارائه میشود، چالشبرانگیز است.
با این حال، سازندگان RSL معتقدند که شرکتهای هوش مصنوعی قادر به مدیریت این دشواری خواهند بود. داگ لیدز، یکی از بنیانگذاران RSL و مدیرعامل سابق IAC Publishing، میگوید: «برخی از توافقنامههای صدور مجوزی که قبلاً انجام دادهاند، آنها را ملزم به گزارش در مورد آن کرده است، بنابراین این امکان وجود دارد. لازم نیست عالی باشد. فقط باید به اندازه کافی خوب باشد تا به مردم پول پرداخت شود.»
سوال بزرگتر این است که آیا شرکتهای هوش مصنوعی این سیستم را میپذیرند یا خیر. همانطور که موفقیت شرکتهایی مانند ScaleAI و Mercor نشان میدهد، آزمایشگاههای پیشرو مشکلی برای پرداخت هزینه داده ندارند، اما وب به طور سنتی به عنوان منبعی برای دادههای ارزان و کم کیفیت در نظر گرفته شده است. با وجود مجموعههای دادهای مانند Common Crawl که از قبل در دسترس هستند، ممکن است استخراج حق امتیاز از چیزی که آزمایشگاهها عادت دارند به صورت رایگان دریافت کنند، چالشبرانگیز باشد. و همانطور که درگیری اخیر بین CloudFlare و Perplexity نشان میدهد، تشخیص تفاوت بین وبگردی و مرور پیشرفته با ماشین آسان نیست.
وقتی این سوال را از لیدز پرسیدم، او به اظهارات اخیر رهبران هوش مصنوعی اشاره کرد که خواستار سیستمی مانند RSL هستند، به ویژه از Sundar Pichai در اجلاس Dealbook سال گذشته. چه درخواستها برای یک سیستم صدور مجوز جدی باشد یا نه، تیم RSL قصد دارد آنها را به آن وادار کند. لیدز به من گفت: «آنها علناً به همه گفتهاند که چیزی شبیه به این باید وجود داشته باشد. ما به یک پروتکل نیاز داریم. ما به یک سیستم نیاز داریم.»
اکنون، ممکن است یکی به دست آورند.
منبع : techcrunch.com