
Image Credits:Getty Images
EleutherAI مجموعه داده بزرگ «Common Pile» را برای آموزش مدلهای هوش مصنوعی منتشر کرد
EleutherAI، یک سازمان تحقیقاتی هوش مصنوعی، آنچه را که ادعا میکند یکی از بزرگترین مجموعههای متن دارای مجوز و دامنه باز برای آموزش مدلهای هوش مصنوعی است، منتشر کرده است.
۱۴۰۴/۰۳/۱۶
سازمان تحقیقاتی هوش مصنوعی EleutherAI مجموعه داده بزرگ و جدیدی به نام «The Common Pile v0.1» را منتشر کرده که حاوی متن دارای مجوز و دامنه باز برای آموزش مدلهای هوش مصنوعی است. این مجموعه داده 8 ترابایتی، که در پی دعاوی حقوقی بر سر استفاده از دادههای دارای حق کپیرایت و کاهش شفافیت در این حوزه منتشر میشود، با همکاری Poolside، Hugging Face و مؤسسات آکادمیک ایجاد شده و برای آموزش مدلهای جدید Comma v0.1-1T و Comma v0.1-2T استفاده شده است. EleutherAI ادعا میکند این مدلها عملکردی رقابتی با مدلهای آموزش دیده بر روی دادههای بدون مجوز دارند.
سازمان تحقیقاتی هوش مصنوعی EleutherAI آنچه را که ادعا میکند یکی از بزرگترین مجموعههای متن دارای مجوز و دامنه باز برای آموزش مدلهای هوش مصنوعی است، منتشر کرده است.
این مجموعه داده که با نام «The Common Pile v0.1» شناخته میشود، تقریباً دو سال طول کشید تا با همکاری استارتآپهای هوش مصنوعی Poolside و Hugging Face و سایرین، همراه با چندین مؤسسه آکادمیک تکمیل شود. The Common Pile v0.1 با حجم 8 ترابایت، برای آموزش دو مدل هوش مصنوعی جدید از EleutherAI به نامهای Comma v0.1-1T و Comma v0.1-2T استفاده شد. EleutherAI ادعا میکند که این مدلها عملکردی برابر با مدلهایی دارند که با استفاده از دادههای بدون مجوز و دارای حق کپیرایت آموزش دیدهاند.
شرکتهای هوش مصنوعی، از جمله OpenAI، درگیر دعاوی حقوقی بر سر شیوههای آموزش مدلهای خود هستند که متکی بر استخراج داده از وب - شامل مواد دارای حق کپیرایت مانند کتابها و مجلات تحقیقاتی - برای ساخت مجموعه دادههای آموزشی مدلها است. در حالی که برخی از شرکتهای هوش مصنوعی با برخی ارائهدهندگان محتوا قراردادهای مجوز دارند، بیشتر آنها معتقدند که دکترین قانونی «استفاده منصفانه» (fair use) در ایالات متحده آنها را در مواردی که بدون اجازه بر روی آثار دارای حق کپیرایت آموزش دیدهاند، از مسئولیت مبرا میکند.
EleutherAI استدلال میکند که این دعاوی حقوقی شفافیت شرکتهای هوش مصنوعی را «به شدت کاهش داده» که به گفته این سازمان به حوزه تحقیقات گستردهتر هوش مصنوعی آسیب رسانده است، زیرا درک نحوه عملکرد مدلها و نقصهای احتمالی آنها را دشوارتر کرده است.
استلا بیدرمَن (Stella Biderman)، مدیر اجرایی EleutherAI، در پستی در وبلاگ Hugging Face اوایل جمعه نوشت: «دعاوی [حق کپیرایت] شیوههای منبعیابی داده در آموزش [مدلها] را به طور معناداری تغییر نداده است، اما شفافیتی که شرکتها در آن مشارکت دارند را به شدت کاهش داده است.» او افزود: «محققان در برخی از شرکتهایی که با آنها صحبت کردهایم، به طور خاص دعاوی حقوقی را دلیلی ذکر کردهاند که چرا نتوانستهاند تحقیقات خود را در حوزههای بسیار دادهمحور منتشر کنند.»
The Common Pile v0.1 که قابل دانلود از پلتفرم توسعه هوش مصنوعی Hugging Face و گیتهاب (GitHub) است، با مشورت کارشناسان حقوقی ایجاد شده و از منابعی از جمله 300 هزار کتاب دامنه عمومی که توسط کتابخانه کنگره (Library of Congress) و آرشیو اینترنت (Internet Archive) دیجیتالی شدهاند، استفاده میکند. EleutherAI همچنین از Whisper، مدل متن به گفتار منبع باز OpenAI، برای رونویسی محتوای صوتی استفاده کرد.
EleutherAI ادعا میکند که Comma v0.1-1T و Comma v0.1-2T شواهدی هستند که نشان میدهند Common Pile v0.1 به اندازه کافی دقیق تنظیم شده تا توسعهدهندگان را قادر سازد مدلهایی رقابتی با جایگزینهای اختصاصی بسازند. طبق گفته EleutherAI، این مدلها، که هر دو 7 میلیارد پارامتر (parameter) اندازه دارند و تنها بر روی کسری از Common Pile v0.1 آموزش دیدهاند، با مدلهایی مانند اولین مدل هوش مصنوعی Llama از متا (Meta) در معیارهای مربوط به کدنویسی، درک تصویر و ریاضیات رقابت میکنند.
پارامترها، که گاهی به عنوان وزنها نیز نامیده میشوند، اجزای داخلی یک مدل هوش مصنوعی هستند که رفتار و پاسخهای آن را هدایت میکنند.
بیدرمَن در پست خود نوشت: «به طور کلی، ما فکر میکنیم این ایده رایج که متن بدون مجوز باعث بهبود عملکرد میشود، غیرموجه است. با افزایش میزان دادههای باز دارای مجوز و دامنه عمومی که قابل دسترس هستند، میتوان انتظار داشت کیفیت مدلهایی که بر روی محتوای دارای مجوز باز آموزش دیدهاند، بهبود یابد.»
به نظر میرسد The Common Pile v0.1 تا حدی تلاشی برای اصلاح اشتباهات گذشته EleutherAI است. سالها پیش، این شرکت The Pile را منتشر کرد که مجموعهای باز از متن آموزشی شامل مواد دارای حق کپیرایت بود. شرکتهای هوش مصنوعی به دلیل استفاده از The Pile برای آموزش مدلها مورد انتقاد - و فشار قانونی - قرار گرفتهاند.
EleutherAI متعهد شده است که در آینده با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعه دادههای باز را با فرکانس بیشتری منتشر کند.
منبع: تککرانچ