اتهام سرقت محتوای وب‌سایت‌ها توسط Perplexity

علیرضا مرداد 13, 1404

0 0 2 دقیقه مطالعه

به گفته Cloudflare، شرکت زیرساخت اینترنتی، استارتاپ هوش مصنوعی Perplexity در حال خزیدن و جمع‌آوری محتوا از وب‌سایت‌هایی است که به طور صریح اعلام کرده‌اند که نمی‌خواهند اطلاعاتشان جمع‌آوری شود.

Cloudflare روز دوشنبه تحقیقی را منتشر کرد که نشان می‌دهد این استارتاپ هوش مصنوعی، بلاک‌ها را نادیده گرفته و فعالیت‌های خزیدن و جمع‌آوری اطلاعات خود را پنهان می‌کند. محققان Cloudflare نوشتند: این غول زیرساخت شبکه، Perplexity را متهم کرد که هنگام تلاش برای جمع‌آوری صفحات وب، هویت خود را مبهم جلوه می‌دهد “تا از ترجیحات وب‌سایت دور بزند.”

محصولات هوش مصنوعی مانند محصولات Perplexity به بلعیدن حجم زیادی از داده‌ها از اینترنت متکی هستند و استارتاپ‌های هوش مصنوعی مدت‌هاست که متن، تصاویر و ویدیوها را از اینترنت بدون اجازه جمع‌آوری می‌کنند تا محصولات خود را به کار بیندازند. در این اواخر، وب‌سایت‌ها سعی کرده‌اند با استفاده از استاندارد وب Robots.txt، که به موتورهای جستجو و شرکت‌های هوش مصنوعی می‌گوید کدام صفحات می‌توانند فهرست شوند و کدام نباید، مقابله کنند؛ تلاش‌هایی که تاکنون نتایج متفاوتی داشته است.

به نظر می‌رسد Perplexity با تغییر “عامل کاربر” ربات‌های خود، این بلاک‌ها را دور می‌زند. “عامل کاربر” سیگنالی است که بازدیدکننده وب‌سایت را بر اساس دستگاه و نوع نسخه آن شناسایی می‌کند. همچنین، این شرکت شبکه‌های سیستم مستقل یا ASN خود را تغییر می‌دهد که اساساً شماره‌ای است که شبکه‌های بزرگ را در اینترنت شناسایی می‌کند.

در پست Cloudflare آمده است: “این فعالیت در ده‌ها هزار دامنه و میلیون‌ها درخواست در روز مشاهده شد. ما توانستیم این خزنده را با استفاده از ترکیبی از یادگیری ماشین و سیگنال‌های شبکه شناسایی کنیم.”

جسی دوایر، سخنگوی Perplexity، پست وبلاگ Cloudflare را یک “پیشنهاد فروش” خواند و در ایمیلی به دیپ تو تک اضافه کرد که اسکرین‌شات‌های موجود در این پست “نشان می‌دهد که هیچ محتوایی دسترسی پیدا نکرده است.” دوایر در یک ایمیل پیگیری ادعا کرد که رباتی که در وبلاگ Cloudflare به آن اشاره شده “حتی متعلق به ما نیست.”

Cloudflare گفت که اولین بار پس از شکایت مشتریانش متوجه این رفتار شد که Perplexity در حال خزیدن و جمع‌آوری اطلاعات از سایت‌های آن‌ها است، حتی پس از اینکه آن‌ها قوانینی را در فایل Robots خود اضافه کردند و به طور خاص ربات‌های شناخته شده Perplexity را مسدود کردند. Cloudflare گفت که سپس آزمایش‌هایی را برای بررسی انجام داد و تأیید کرد که Perplexity این بلاک‌ها را دور می‌زند.

طبق گفته Cloudflare، “ما مشاهده کردیم که Perplexity نه تنها از عامل کاربری اعلام شده خود استفاده می‌کند، بلکه از یک مرورگر عمومی نیز استفاده می‌کند که هدف آن تقلید از Google Chrome در macOS است، زمانی که خزنده اعلام شده آن‌ها مسدود شده بود.”

این شرکت همچنین اعلام کرد که ربات‌های Perplexity را از لیست تأیید شده خود حذف کرده و تکنیک‌های جدیدی را برای مسدود کردن آن‌ها اضافه کرده است.

Cloudflare اخیراً موضعی عمومی علیه خزنده‌های هوش مصنوعی اتخاذ کرده است. ماه گذشته، Cloudflare از راه‌اندازی بازاری خبر داد که به صاحبان وب‌سایت‌ها و ناشران اجازه می‌دهد از جمع‌آوری‌کننده‌های هوش مصنوعی که از سایت‌های آن‌ها بازدید می‌کنند، هزینه دریافت کنند. متیو پرینس، مدیرعامل Cloudflare، در آن زمان زنگ خطر را به صدا درآورد و گفت هوش مصنوعی در حال شکستن مدل کسب‌وکار اینترنت، به ویژه ناشران است. سال گذشته، Cloudflare همچنین ابزاری رایگان را برای جلوگیری از جمع‌آوری اطلاعات وب‌سایت‌ها توسط ربات‌ها برای آموزش هوش مصنوعی، راه‌اندازی کرد.

این اولین بار نیست که Perplexity به جمع‌آوری اطلاعات بدون مجوز متهم می‌شود.

سال گذشته، رسانه‌های خبری، مانند Wired، ادعا کردند که Perplexity محتوای آن‌ها را سرقت ادبی می‌کند. چند هفته بعد، آراویند سرینیواس، مدیرعامل Perplexity، هنگام پاسخ دادن به این سوال که تعریف این شرکت از سرقت ادبی چیست، نتوانست فوراً پاسخ دهد. این سوال توسط Devin Coldewey از دیپ تو تک در کنفرانس Disrupt 2024 پرسیده شد.

منبع: techcrunch.com

Post Views: 36