Image Credits:Getty Images

EleutherAI مجموعه داده بزرگ «Common Pile» را برای آموزش مدل‌های هوش مصنوعی منتشر کرد

EleutherAI، یک سازمان تحقیقاتی هوش مصنوعی، آنچه را که ادعا می‌کند یکی از بزرگ‌ترین مجموعه‌های متن دارای مجوز و دامنه باز برای آموزش مدل‌های هوش مصنوعی است، منتشر کرده است.

۱۴۰۴/۰۳/۱۶

سازمان تحقیقاتی هوش مصنوعی EleutherAI مجموعه داده بزرگ و جدیدی به نام «The Common Pile v0.1» را منتشر کرده که حاوی متن دارای مجوز و دامنه باز برای آموزش مدل‌های هوش مصنوعی است. این مجموعه داده 8 ترابایتی، که در پی دعاوی حقوقی بر سر استفاده از داده‌های دارای حق کپی‌رایت و کاهش شفافیت در این حوزه منتشر می‌شود، با همکاری Poolside، Hugging Face و مؤسسات آکادمیک ایجاد شده و برای آموزش مدل‌های جدید Comma v0.1-1T و Comma v0.1-2T استفاده شده است. EleutherAI ادعا می‌کند این مدل‌ها عملکردی رقابتی با مدل‌های آموزش دیده بر روی داده‌های بدون مجوز دارند.

سازمان تحقیقاتی هوش مصنوعی EleutherAI آنچه را که ادعا می‌کند یکی از بزرگ‌ترین مجموعه‌های متن دارای مجوز و دامنه باز برای آموزش مدل‌های هوش مصنوعی است، منتشر کرده است.

این مجموعه داده که با نام «The Common Pile v0.1» شناخته می‌شود، تقریباً دو سال طول کشید تا با همکاری استارت‌آپ‌های هوش مصنوعی Poolside و Hugging Face و سایرین، همراه با چندین مؤسسه آکادمیک تکمیل شود. The Common Pile v0.1 با حجم 8 ترابایت، برای آموزش دو مدل هوش مصنوعی جدید از EleutherAI به نام‌های Comma v0.1-1T و Comma v0.1-2T استفاده شد. EleutherAI ادعا می‌کند که این مدل‌ها عملکردی برابر با مدل‌هایی دارند که با استفاده از داده‌های بدون مجوز و دارای حق کپی‌رایت آموزش دیده‌اند.

شرکت‌های هوش مصنوعی، از جمله OpenAI، درگیر دعاوی حقوقی بر سر شیوه‌های آموزش مدل‌های خود هستند که متکی بر استخراج داده از وب - شامل مواد دارای حق کپی‌رایت مانند کتاب‌ها و مجلات تحقیقاتی - برای ساخت مجموعه داده‌های آموزشی مدل‌ها است. در حالی که برخی از شرکت‌های هوش مصنوعی با برخی ارائه‌دهندگان محتوا قراردادهای مجوز دارند، بیشتر آن‌ها معتقدند که دکترین قانونی «استفاده منصفانه» (fair use) در ایالات متحده آن‌ها را در مواردی که بدون اجازه بر روی آثار دارای حق کپی‌رایت آموزش دیده‌اند، از مسئولیت مبرا می‌کند.

EleutherAI استدلال می‌کند که این دعاوی حقوقی شفافیت شرکت‌های هوش مصنوعی را «به شدت کاهش داده» که به گفته این سازمان به حوزه تحقیقات گسترده‌تر هوش مصنوعی آسیب رسانده است، زیرا درک نحوه عملکرد مدل‌ها و نقص‌های احتمالی آن‌ها را دشوارتر کرده است.

استلا بیدرمَن (Stella Biderman)، مدیر اجرایی EleutherAI، در پستی در وبلاگ Hugging Face اوایل جمعه نوشت: «دعاوی [حق کپی‌رایت] شیوه‌های منبع‌یابی داده در آموزش [مدل‌ها] را به طور معناداری تغییر نداده است، اما شفافیتی که شرکت‌ها در آن مشارکت دارند را به شدت کاهش داده است.» او افزود: «محققان در برخی از شرکت‌هایی که با آن‌ها صحبت کرده‌ایم، به طور خاص دعاوی حقوقی را دلیلی ذکر کرده‌اند که چرا نتوانسته‌اند تحقیقات خود را در حوزه‌های بسیار داده‌محور منتشر کنند.»

The Common Pile v0.1 که قابل دانلود از پلتفرم توسعه هوش مصنوعی Hugging Face و گیت‌هاب (GitHub) است، با مشورت کارشناسان حقوقی ایجاد شده و از منابعی از جمله 300 هزار کتاب دامنه عمومی که توسط کتابخانه کنگره (Library of Congress) و آرشیو اینترنت (Internet Archive) دیجیتالی شده‌اند، استفاده می‌کند. EleutherAI همچنین از Whisper، مدل متن به گفتار منبع باز OpenAI، برای رونویسی محتوای صوتی استفاده کرد.

EleutherAI ادعا می‌کند که Comma v0.1-1T و Comma v0.1-2T شواهدی هستند که نشان می‌دهند Common Pile v0.1 به اندازه کافی دقیق تنظیم شده تا توسعه‌دهندگان را قادر سازد مدل‌هایی رقابتی با جایگزین‌های اختصاصی بسازند. طبق گفته EleutherAI، این مدل‌ها، که هر دو 7 میلیارد پارامتر (parameter) اندازه دارند و تنها بر روی کسری از Common Pile v0.1 آموزش دیده‌اند، با مدل‌هایی مانند اولین مدل هوش مصنوعی Llama از متا (Meta) در معیارهای مربوط به کدنویسی، درک تصویر و ریاضیات رقابت می‌کنند.

پارامترها، که گاهی به عنوان وزن‌ها نیز نامیده می‌شوند، اجزای داخلی یک مدل هوش مصنوعی هستند که رفتار و پاسخ‌های آن را هدایت می‌کنند.

بیدرمَن در پست خود نوشت: «به طور کلی، ما فکر می‌کنیم این ایده رایج که متن بدون مجوز باعث بهبود عملکرد می‌شود، غیرموجه است. با افزایش میزان داده‌های باز دارای مجوز و دامنه عمومی که قابل دسترس هستند، می‌توان انتظار داشت کیفیت مدل‌هایی که بر روی محتوای دارای مجوز باز آموزش دیده‌اند، بهبود یابد.»

به نظر می‌رسد The Common Pile v0.1 تا حدی تلاشی برای اصلاح اشتباهات گذشته EleutherAI است. سال‌ها پیش، این شرکت The Pile را منتشر کرد که مجموعه‌ای باز از متن آموزشی شامل مواد دارای حق کپی‌رایت بود. شرکت‌های هوش مصنوعی به دلیل استفاده از The Pile برای آموزش مدل‌ها مورد انتقاد - و فشار قانونی - قرار گرفته‌اند.

EleutherAI متعهد شده است که در آینده با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعه‌ داده‌های باز را با فرکانس بیشتری منتشر کند.

منبع: تک‌کرانچ

هوش مصنوعی هوش مصنوعی مولد ال ال ام