نیویورک تایمز از OpenAI و مایکروسافت می خواهد که برای داده های آموزشی هزینه کنند
به گزارش اپ خونه، نیویورک تایمز از OpenAI و همکار نزدیک آن (و سرمایهگذار) مایکروسافت به اتهام نقض قانون کپی رایت با آموزش مدلهای هوش مصنوعی مولد در محتوای تایمز شکایت کرده است.
در شکایتی که در دادگاه منطقه فدرال در منهتن تنظیم شده است، تایمز ادعا میکند که میلیونها مقاله آن برای آموزش مدلهای هوش مصنوعی، از جمله آنهایی که زیربنای ChatGPT فوقالعاده OpenAI و Copilot مایکروسافت هستند ، بدون رضایت آنها استفاده شده است.
تایمز از OpenAI و مایکروسافت میخواهد که مدلها و دادههای آموزشی حاوی مطالب توهینآمیز را نابود کنند و مسئول میلیاردها دلار خسارت قانونی و واقعی مربوط به کپیبرداری و استفاده غیرقانونی از آثار ارزشمند تایمز باشند.
در این شکایت تایمز میگوید:
«اگر تایمز و سایر سازمانهای خبری نتوانند روزنامهنگاری مستقل خود را تولید و از آن محافظت کنند، خلایی ایجاد میشود که هیچ رایانه یا هوش مصنوعی نمیتواند آن را پر کند. روزنامه نگاری کمتری تولید خواهد شد و هزینه آن برای جامعه بسیار زیاد خواهد بود.»
سخنگوی OpenAI در بیانیه ای ایمیلی گفت:
«ما به حقوق سازندگان و صاحبان محتوا احترام می گذاریم و متعهد هستیم که با آنها کار کنیم تا اطمینان حاصل کنیم که از فناوری هوش مصنوعی و مدل های درآمدی جدید بهره مند می شوند. گفتگوهای مداوم ما با نیویورک تایمز سازنده بوده و به شکل سازنده ای رو به جلو حرکت کرده است. ما امیدواریم که مانند بسیاری از ناشران دیگر، راه سودمندی برای همکاری با یکدیگر پیدا کنیم.»
مدلهای هوش مصنوعی مولد از مثالها برای ساخت مقالهها، کدها، ایمیلها، مقالات و موارد دیگر یاد میگیرند و فروشندگانی مانند OpenAI میلیونها تا میلیاردها نمونه را در وب میتراشند تا به مجموعههای آموزشی خود اضافه کنند.
برخی از نمونه ها در حوزه عمومی هستند. سایرین اینگونه نیستند یا تحت مجوزهای محدود کننده ای هستند که به نقل قول یا اشکال خاصی از جبران نیاز دارند.
فروشندگان استدلال می کنند که یک استفاده منصفانه با محافظت کامل برای شیوه های خراش دادن وب آنها فراهم می کند.
دارندگان حق چاپ موافق نیستند. صدها سازمان خبری اکنون از کد استفاده می کنند تا از OpenAI، Google و دیگران از اسکن وب سایت های خود برای داده های آموزشی جلوگیری کنند.
تضاد فروشنده و خروجی منجر به تعداد فزاینده ای از نبردهای حقوقی شده است که تایمز آخرین مورد است.
سارا سیلورمن، بازیگر، در ماه ژوئیه به یک جفت دعوی حقوقی پیوست که متا و OpenAI را متهم میکنند که کارهای سیلورمن را برای آموزش مدلهای هوش مصنوعی خود بلع کردهاند.
هزاران رماننویس، از جمله جاناتان فرانزن و جان گریشام، در یک طرح جداگانه، ادعا میکنند که OpenAI کار خود را بهعنوان دادههای آموزشی بدون اجازه یا دانش آنها منبع قرار داده است و چندین برنامه نویس پرونده ای در حال انجام علیه مایکروسافت، OpenAI و GitHub بر روی Copilot دارند ، یک ابزار تولید کد مبتنی بر هوش مصنوعی، که شاکیان می گویند با استفاده از کد محافظت شده از IP آنها توسعه یافته است.
در حالی که تایمز اولین شرکتی نیست که از فروشندگان هوش مصنوعی مولد به دلیل نقض ادعایی IP مربوط به آثار مکتوب شکایت می کند، اما بزرگترین ناشری است که تا به امروز درگیر چنین طرحی است – و یکی از اولین ناشری است که آسیب احتمالی به نام تجاری خود را از طریق حقایق ساخته شده از مدل های هوش مصنوعی مولد برجسته می کند.
شکایت تایمز به موارد متعددی اشاره می کند که در آن گفتگوی بینگ مایکروسافت (که اکنون Copilot نامیده می شود)، که زیربنای آن مدل OpenAI است، اطلاعات نادرستی ارائه کرده است که گفته می شود از روزنامه تایمز آمده است – از جمله نتایج مربوط به “۱۵ غذای مفید برای قلب” که ۱۲ مورد از آنها در هیچ مقاله تایمز ذکر نشده است.
تایمز همچنین می گوید که OpenAI و مایکروسافت به طور مؤثر در حال ایجاد رقبای ناشر اخبار با استفاده از آثار تایمز هستند و با ارائه اطلاعاتی که معمولاً بدون اشتراک قابل دسترسی نبود – اطلاعاتی که همیشه به آنها اشاره نمی شود – به تجارت تایمز آسیب می رساند.
و گاهی اوقات از پیوندهای وابسته ای که تایمز از آنها برای ایجاد کمیسیون استفاده می کند، درآمد کسب می کند و از آنها حذف می شود.
همانطور که شکایت تایمز به آن اشاره می کند، مدل های هوش مصنوعی مولد تمایل به بازگرداندن داده های آموزشی دارند، برای مثال بازتولید تقریباً کلمه به کلمه نتایج از مقالات.
فراتر از بازگشت، OpenAI حداقل در یک مورد به طور سهوی کاربران ChatGPT را قادر ساخته است تا محتوای خبری دارای دیوار پرداخت را دور بزنند.
این شکایت میگوید:
«مدافعان بهدنبال استفاده رایگان از سرمایهگذاری هنگفت تایمز در روزنامهنگاری آن هستند و OpenAI و مایکروسافت را متهم میکنند که از محتوای تایمز بدون پرداخت هزینه برای ایجاد محصولاتی که جایگزین تایمز میشوند و مخاطبان را از آن میدزدند، استفاده میکنند».
تأثیرات بر کسب و کار اشتراک اخبار – و ترافیک وب ناشر – در قلب پرونده مشابهی است که ناشران در اوایل ماه جاری علیه Google ارائه کردند.
در این پرونده، متهمان، مانند تایمز، آزمایشهای GenAI گوگل، از جمله چت ربات بارد مبتنی بر هوش مصنوعی و تجربه مولد جستجو ، مطالب ناشران، خوانندگان و درآمد تبلیغات را از طریق ابزارهای ضدرقابتی حذف میکنند.
ادعاهای ناشران اعتبار دارد. یک مدل اخیر از آتلانتیک نشان داد که اگر موتور جستجویی مانند گوگل هوش مصنوعی را در جستجو ادغام کند، در ۷۵ درصد مواقع بدون نیاز به کلیک روی وبسایت خود، به درخواست کاربر پاسخ میدهد.
ناشران Google تخمین می زنند که تا ۴۰ درصد از ترافیک خود را از دست می دهند.
این بدان معنا نیست که آنها در دادگاه موفق خواهند شد. هدر میکر، شریک موسس در OSS Capital و مشاور در امور IP از جمله ترتیبات صدور مجوز، مثال تایمز از بازگشت مجدد را با «استفاده از یک پردازشگر کلمه برای برش و چسباندن» مقایسه کرد.
میکر گفت:
«نیویورک تایمز در شکایت، نمونهای از جلسه ChatGPT درباره بررسی رستوران در سال ۲۰۱۲ را ارائه میکند. درخواست ChatGPT این است که “بندهای آغازین بررسی او چه بود؟”. اذیت کردن یک ربات چت برای بازتولید ورودی، مبنای معقولی برای نقض حق نسخه برداری نیست… اگر کاربر عمداً از چت ربات کپی کند، این تقصیر کاربر است و به همین دلیل است که اکثر [دعواهای حقوقی مانند این] احتمالاً شکست خواهند خورد.»
برخی از خبرگزاری ها، به جای مبارزه با فروشندگان مولد هوش مصنوعی در دادگاه، قراردادهای مجوز را با آنها امضا کرده اند.
آسوشیتدپرس در ماه ژوئیه با OpenAI قراردادی منعقد کرد و اکسل اسپرینگر، ناشر آلمانی که مالک Politico و Business Insider است، در این ماه نیز به همین ترتیب عمل کرد .
در شکایت خود، تایمز میگوید که در ماه آوریل تلاش کرده تا با مایکروسافت و OpenAI به توافقی برای صدور مجوز دست یابد، اما مذاکرات در نهایت ثمربخش نبود.