نیویورک تایمز از OpenAI و مایکروسافت می خواهد که برای داده های آموزشی هزینه کنند

دی ۷, ۱۴۰۲ 1۰6

به گزارش اپ خونه، نیویورک تایمز از OpenAI و همکار نزدیک آن (و سرمایه‌گذار) مایکروسافت به اتهام نقض قانون کپی رایت با آموزش مدل‌های هوش مصنوعی مولد در محتوای تایمز شکایت کرده است.

در شکایتی که در دادگاه منطقه فدرال در منهتن تنظیم شده است، تایمز ادعا می‌کند که میلیون‌ها مقاله آن برای آموزش مدل‌های هوش مصنوعی، از جمله آن‌هایی که زیربنای ChatGPT فوق‌العاده OpenAI و Copilot مایکروسافت هستند ، بدون رضایت آن‌ها استفاده شده است.

تایمز از OpenAI و مایکروسافت می‌خواهد که مدل‌ها و داده‌های آموزشی حاوی مطالب توهین‌آمیز را نابود کنند و مسئول میلیاردها دلار خسارت قانونی و واقعی مربوط به کپی‌برداری و استفاده غیرقانونی از آثار ارزشمند تایمز باشند.

در این شکایت تایمز می‌گوید:

«اگر تایمز و سایر سازمان‌های خبری نتوانند روزنامه‌نگاری مستقل خود را تولید و از آن محافظت کنند، خلایی ایجاد می‌شود که هیچ رایانه یا هوش مصنوعی نمی‌تواند آن را پر کند. روزنامه نگاری کمتری تولید خواهد شد و هزینه آن برای جامعه بسیار زیاد خواهد بود.»

سخنگوی OpenAI در بیانیه ای ایمیلی گفت:

«ما به حقوق سازندگان و صاحبان محتوا احترام می گذاریم و متعهد هستیم که با آنها کار کنیم تا اطمینان حاصل کنیم که از فناوری هوش مصنوعی و مدل های درآمدی جدید بهره مند می شوند. گفتگوهای مداوم ما با نیویورک تایمز سازنده بوده و به شکل سازنده ای رو به جلو حرکت کرده است. ما امیدواریم که مانند بسیاری از ناشران دیگر، راه سودمندی برای همکاری با یکدیگر پیدا کنیم.»

مدل‌های هوش مصنوعی مولد از مثال‌ها برای ساخت مقاله‌ها، کدها، ایمیل‌ها، مقالات و موارد دیگر یاد می‌گیرند و فروشندگانی مانند OpenAI میلیون‌ها تا میلیاردها نمونه را در وب می‌تراشند تا به مجموعه‌های آموزشی خود اضافه کنند.

برخی از نمونه ها در حوزه عمومی هستند. سایرین اینگونه نیستند یا تحت مجوزهای محدود کننده ای هستند که به نقل قول یا اشکال خاصی از جبران نیاز دارند.

فروشندگان استدلال می کنند که یک استفاده منصفانه با محافظت کامل برای شیوه های خراش دادن وب آنها فراهم می کند.

دارندگان حق چاپ موافق نیستند. صدها سازمان خبری اکنون از کد استفاده می کنند تا از OpenAI، Google و دیگران از اسکن وب سایت های خود برای داده های آموزشی جلوگیری کنند.

تضاد فروشنده و خروجی منجر به تعداد فزاینده ای از نبردهای حقوقی شده است که تایمز آخرین مورد است.

سارا سیلورمن، بازیگر، در ماه ژوئیه به یک جفت دعوی حقوقی پیوست که متا و OpenAI را متهم می‌کنند که کارهای سیلورمن را برای آموزش مدل‌های هوش مصنوعی خود بلع کرده‌اند.

هزاران رمان‌نویس، از جمله جاناتان فرانزن و جان گریشام، در یک طرح جداگانه، ادعا می‌کنند که OpenAI کار خود را به‌عنوان داده‌های آموزشی بدون اجازه یا دانش آن‌ها منبع قرار داده است و چندین برنامه نویس پرونده ای در حال انجام علیه مایکروسافت، OpenAI و GitHub بر روی Copilot دارند ، یک ابزار تولید کد مبتنی بر هوش مصنوعی، که شاکیان می گویند با استفاده از کد محافظت شده از IP آنها توسعه یافته است.

در حالی که تایمز اولین شرکتی نیست که از فروشندگان هوش مصنوعی مولد به دلیل نقض ادعایی IP مربوط به آثار مکتوب شکایت می کند، اما بزرگترین ناشری است که تا به امروز درگیر چنین طرحی است – و یکی از اولین ناشری است که آسیب احتمالی به نام تجاری خود را از طریق حقایق ساخته شده از مدل های هوش مصنوعی مولد برجسته می کند.

شکایت تایمز به موارد متعددی اشاره می کند که در آن گفتگوی بینگ مایکروسافت (که اکنون Copilot نامیده می شود)، که زیربنای آن مدل OpenAI است، اطلاعات نادرستی ارائه کرده است که گفته می شود از روزنامه تایمز آمده است – از جمله نتایج مربوط به “۱۵ غذای مفید برای قلب” که ۱۲ مورد از آنها در هیچ مقاله تایمز ذکر نشده است.

تایمز همچنین می گوید که OpenAI و مایکروسافت به طور مؤثر در حال ایجاد رقبای ناشر اخبار با استفاده از آثار تایمز هستند و با ارائه اطلاعاتی که معمولاً بدون اشتراک قابل دسترسی نبود – اطلاعاتی که همیشه به آنها اشاره نمی شود – به تجارت تایمز آسیب می رساند.

و گاهی اوقات از پیوندهای وابسته ای که تایمز از آنها برای ایجاد کمیسیون استفاده می کند، درآمد کسب می کند و از آنها حذف می شود.

همانطور که شکایت تایمز به آن اشاره می کند، مدل های هوش مصنوعی مولد تمایل به بازگرداندن داده های آموزشی دارند، برای مثال بازتولید تقریباً کلمه به کلمه نتایج از مقالات.

فراتر از بازگشت، OpenAI حداقل در یک مورد به طور سهوی کاربران ChatGPT را قادر ساخته است تا محتوای خبری دارای دیوار پرداخت را دور بزنند.

این شکایت می‌گوید:

«مدافعان به‌دنبال استفاده رایگان از سرمایه‌گذاری هنگفت تایمز در روزنامه‌نگاری آن هستند و OpenAI و مایکروسافت را متهم می‌کنند که از محتوای تایمز بدون پرداخت هزینه برای ایجاد محصولاتی که جایگزین تایمز می‌شوند و مخاطبان را از آن می‌دزدند، استفاده می‌کنند».

تأثیرات بر کسب و کار اشتراک اخبار – و ترافیک وب ناشر – در قلب پرونده مشابهی است که ناشران در اوایل ماه جاری علیه Google ارائه کردند.

در این پرونده، متهمان، مانند تایمز، آزمایش‌های GenAI گوگل، از جمله چت ربات بارد مبتنی بر هوش مصنوعی و تجربه مولد جستجو ، مطالب ناشران، خوانندگان و درآمد تبلیغات را از طریق ابزارهای ضدرقابتی حذف می‌کنند.

ادعاهای ناشران اعتبار دارد. یک مدل اخیر از آتلانتیک نشان داد که اگر موتور جستجویی مانند گوگل هوش مصنوعی را در جستجو ادغام کند، در ۷۵ درصد مواقع بدون نیاز به کلیک روی وب‌سایت خود، به درخواست کاربر پاسخ می‌دهد.

ناشران Google تخمین می زنند که تا ۴۰ درصد از ترافیک خود را از دست می دهند.

این بدان معنا نیست که آنها در دادگاه موفق خواهند شد. هدر میکر، شریک موسس در OSS Capital و مشاور در امور IP از جمله ترتیبات صدور مجوز، مثال تایمز از بازگشت مجدد را با «استفاده از یک پردازشگر کلمه برای برش و چسباندن» مقایسه کرد.

میکر گفت:

«نیویورک تایمز در شکایت، نمونه‌ای از جلسه ChatGPT درباره بررسی رستوران در سال ۲۰۱۲ را ارائه می‌کند. درخواست ChatGPT این است که “بندهای آغازین بررسی او چه بود؟”. اذیت کردن یک ربات چت برای بازتولید ورودی، مبنای معقولی برای نقض حق نسخه برداری نیست… اگر کاربر عمداً از چت ربات کپی کند، این تقصیر کاربر است و به همین دلیل است که اکثر [دعواهای حقوقی مانند این] احتمالاً شکست خواهند خورد.»

برخی از خبرگزاری ها، به جای مبارزه با فروشندگان مولد هوش مصنوعی در دادگاه، قراردادهای مجوز را با آنها امضا کرده اند.

آسوشیتدپرس در ماه ژوئیه با OpenAI قراردادی منعقد کرد و اکسل اسپرینگر، ناشر آلمانی که مالک Politico و Business Insider است، در این ماه نیز به همین ترتیب عمل کرد .

در شکایت خود، تایمز می‌گوید که در ماه آوریل تلاش کرده تا با مایکروسافت و OpenAI به توافقی برای صدور مجوز دست یابد، اما مذاکرات در نهایت ثمربخش نبود.