
Image Credits:Getty Images AI Generator / Getty Images
فرهنگ اصطلاحات هوش مصنوعی: از مدلهای زبان بزرگ تا توهمات
این مقاله راهنمایی است که تعاریف برخی از مهمترین واژگان و عبارات رایج در حوزه هوش مصنوعی را ارائه میدهد، از جمله مدلهای زبان بزرگ، یادگیری عمیق، توهمات، و شبکههای عصبی.
۱۴۰۴/۰۳/۰۴
راهنمای اصطلاحات کلیدی در هوش مصنوعی شامل تعاریف مدلهای زبان بزرگ، یادگیری عمیق، توهمات، و سایر مفاهیم رایج در این حوزه.
در دنیای هوش مصنوعی (Artificial intelligence)، متخصصان غالباً برای توضیح کارهای خود از اصطلاحات تخصصی و واژگان خاص حوزه استفاده میکنند. این مقاله راهنمایی برای برخی از مهمترین واژگان و عبارات رایج در این حوزه است که بر اساس اطلاعات ارائه شده از منابع خبری تهیه شده است.
هوش مصنوعی عمومی (AGI - Artificial General Intelligence) اصطلاحی مبهم است، اما عموماً به هوش مصنوعیای اشاره دارد که در بسیاری از وظایف، اگر نگوییم بیشتر، توانمندتر از یک انسان عادی است. بر اساس تعریف منشور OpenAI، AGI سیستمهای بسیار خودمختاری هستند که در اکثر کارهای با ارزش اقتصادی عملکردی بهتر از انسان دارند. در حالی که گوگل دیپمایند (Google DeepMind) AGI را هوش مصنوعیای میبیند که حداقل در اکثر وظایف شناختی به اندازه انسان توانا است.
عامل هوش مصنوعی (AI agent) ابزاری است که از فناوریهای هوش مصنوعی برای انجام مجموعهای از وظایف به نمایندگی از شما استفاده میکند، فراتر از آنچه یک چتبات ساده میتواند انجام دهد؛ مانند ثبت هزینهها، رزرو بلیط یا میز رستوران، یا حتی نوشتن و نگهداری کد. این مفهوم به سیستمهای خودمختار اشاره دارد که ممکن است از چندین سیستم هوش مصنوعی برای انجام وظایف چندمرحلهای استفاده کنند.
در زمینه هوش مصنوعی، استدلال زنجیره فکری (Chain-of-thought reasoning) برای مدلهای زبان بزرگ (LLMs - Large language models) به معنای تقسیم یک مسئله به مراحل کوچکتر و میانی برای بهبود کیفیت نتیجه نهایی است. این روش معمولاً زمان بیشتری برای پاسخدهی میبرد، اما احتمال صحیح بودن پاسخ را افزایش میدهد، به ویژه در زمینه منطق یا کدنویسی. مدلهای استدلال از مدلهای زبان بزرگ سنتی توسعه یافتهاند و از طریق یادگیری تقویتی (reinforcement learning) برای تفکر زنجیره فکری بهینه شدهاند.
یادگیری عمیق (Deep learning) زیرمجموعهای از یادگیری ماشین (machine learning) خودبهبودشونده است که در آن الگوریتمهای هوش مصنوعی با ساختار شبکه عصبی مصنوعی (ANN - artificial neural network) چندلایه طراحی میشوند. این ساختار به آنها اجازه میدهد همبستگیهای پیچیدهتری نسبت به سیستمهای سادهتر بر پایه یادگیری ماشین ایجاد کنند. مدلهای یادگیری عمیق قادرند ویژگیهای مهم در دادهها را خودشان شناسایی کنند و از خطاها بیاموزند، اما برای نتایج خوب به مقادیر زیادی داده (میلیونها یا بیشتر) نیاز دارند و آموزش آنها زمانبر است.
انتشار (Diffusion) فناوری اصلی در بسیاری از مدلهای هوش مصنوعی مولد هنر، موسیقی و متن است. این سیستمها با افزودن نویز، ساختار دادهها (مانند عکسها یا آهنگها) را به آرامی 'نابود' میکنند تا چیزی باقی نماند. سیستمهای انتشار در هوش مصنوعی تلاش میکنند فرآیند 'انتشار معکوس' را یاد بگیرند تا دادههای نابود شده را بازسازی کرده و توانایی بازیابی دادهها از نویز را به دست آورند.
تقطیر (Distillation) تکنیکی است که برای استخراج دانش از یک مدل هوش مصنوعی بزرگ با استفاده از مدل 'معلم-دانشآموز' به کار میرود. این روش میتواند برای ایجاد مدل کوچکتر و کارآمدتر بر اساس یک مدل بزرگتر استفاده شود. احتمالاً OpenAI از این روش برای توسعه GPT-4 Turbo استفاده کرده است. همچنین این تکنیک ممکن است توسط برخی شرکتها برای همگام شدن با مدلهای پیشرفته استفاده شده باشد، اما تقطیر از یک رقیب معمولاً شرایط خدمات API یا دستیارهای چت هوش مصنوعی را نقض میکند.
تنظیم دقیق (Fine-tuning) به آموزش بیشتر یک مدل هوش مصنوعی برای بهینهسازی عملکرد برای یک وظیفه یا حوزه خاصتر اشاره دارد که معمولاً با تغذیه دادههای جدید و تخصصی انجام میشود. بسیاری از استارتآپها مدلهای زبان بزرگ را به عنوان نقطه شروع برای ساخت محصولات تجاری در نظر میگیرند و با استفاده از تنظیم دقیق بر اساس دانش و تخصص حوزه خود، کاربرد آنها را برای یک بخش هدف افزایش میدهند.
شبکه مولد رقابتی (GAN - Generative Adversarial Network) نوعی چارچوب یادگیری ماشین است که اساس برخی پیشرفتهای مهم در هوش مصنوعی مولد برای تولید دادههای واقعگرایانه، از جمله ابزارهای دیپفیک (deepfake)، را تشکیل میدهد. GANها شامل استفاده از دو شبکه عصبی هستند: یکی برای تولید خروجی بر اساس دادههای آموزشی و دیگری (دیسکریمیناتور) برای ارزیابی آن خروجی. ساختار GAN به صورت رقابتی تنظیم شده است تا خروجیهای هوش مصنوعی واقعگرایانهتر شوند، هرچند این روش برای کاربردهای محدودتر بهتر عمل میکند.
توهم (Hallucination) اصطلاح صنعت هوش مصنوعی برای حالتی است که مدلهای هوش مصنوعی اطلاعات نادرست تولید میکنند. این یک مشکل بزرگ برای کیفیت هوش مصنوعی است و میتواند منجر به خطرات واقعی با پیامدهای بالقوه خطرناک شود. تصور میشود مشکل تولید اطلاعات نادرست در نتیجه شکافهای موجود در دادههای آموزشی ایجاد میشود، به ویژه برای هوش مصنوعی مولد عمومی (foundation models). این مشکل باعث فشار به سمت مدلهای هوش مصنوعی تخصصیتر برای کاهش احتمال شکافهای دانش و خطرات اطلاعات نادرست شده است.
استنتاج (Inference) فرآیند اجرای یک مدل هوش مصنوعی برای انجام پیشبینی یا نتیجهگیری از دادههای قبلاً دیده نشده است. استنتاج بدون آموزش امکانپذیر نیست؛ مدل باید الگوها را در مجموعه دادهای یاد بگیرد تا بتواند به طور مؤثر از این دادههای آموزشی استخراج کند. انواع مختلفی از سختافزار میتوانند استنتاج را انجام دهند، از پردازندههای گوشیهای هوشمند گرفته تا کارتهای گرافیک قوی و شتابدهندههای هوش مصنوعی (AI accelerators) سفارشی. عملکرد آنها متفاوت است؛ برای مثال، مدلهای بسیار بزرگ در سرورهای ابری با چیپهای هوش مصنوعی رده بالا بسیار سریعتر از لپتاپها پیشبینی میکنند.
مدلهای زبان بزرگ (LLMs - Large language models) مدلهای هوش مصنوعی هستند که توسط دستیارهای هوش مصنوعی محبوب مانند ChatGPT، Claude، Gemini گوگل، Llama متا، Microsoft Copilot یا Le Chat میسترال استفاده میشوند. LLMها شبکههای عصبی عمیق هستند که از میلیاردها پارامتر عددی (یا وزنها) تشکیل شدهاند و روابط بین کلمات و عبارات را میآموزند و نمایشی از زبان ایجاد میکنند. این مدلها از رمزگذاری الگوهای یافت شده در میلیاردها کتاب، مقاله و رونوشت ایجاد میشوند. وقتی به یک LLM فرمان میدهید، مدل محتملترین الگوی متناسب با فرمان را تولید میکند و سپس محتملترین کلمه بعدی را بر اساس آنچه قبلاً گفته شده ارزیابی میکند.
شبکه عصبی (Neural network) به ساختار الگوریتمی چندلایه اشاره دارد که اساس یادگیری عمیق و به طور گستردهتر، رونق ابزارهای هوش مصنوعی مولد پس از ظهور مدلهای زبان بزرگ را تشکیل میدهد. ایده الهامگیری از مسیرهای متصل به هم نورونها در مغز انسان به دهه ۱۹۴۰ برمیگردد، اما ظهور سختافزار پردازش گرافیکی (GPUs) قدرت واقعی این نظریه را آزاد کرد. این چیپها برای آموزش الگوریتمها با لایههای بیشتر مناسب بودند و سیستمهای هوش مصنوعی مبتنی بر شبکه عصبی را قادر ساختند به عملکرد بسیار بهتری در حوزههای مختلف، از جمله تشخیص صدا، ناوبری خودکار و کشف دارو دست یابند.
آموزش (Training) فرآیندی است که در آن دادهها به یک مدل هوش مصنوعی تغذیه میشوند تا از الگوها بیاموزد و خروجیهای مفیدی تولید کند. این فرآیند است که مدل هوش مصنوعی را شکل میدهد. برخلاف هوش مصنوعیهای مبتنی بر قوانین که دستورالعملهای از پیش تعریفشده را دنبال میکنند، مدلهای یادگیری ماشین نیاز به آموزش دارند. آموزش میتواند پرهزینه باشد زیرا به مقادیر زیادی داده ورودی نیاز دارد. رویکردهای ترکیبی، مانند تنظیم دقیق (fine-tuning) یک هوش مصنوعی مبتنی بر قوانین با دادهها، میتوانند به مدیریت هزینهها و تسریع توسعه مدل کمک کنند.
یادگیری انتقالی (Transfer learning) تکنیکی است که در آن از یک مدل هوش مصنوعی که قبلاً آموزش دیده است به عنوان نقطه شروع برای توسعه مدل جدیدی برای وظیفهای متفاوت اما معمولاً مرتبط استفاده میشود. این روش به انتقال دانش به دست آمده در چرخه های آموزشی قبلی اجازه میدهد و میتواند با کوتاه کردن فرآیند توسعه مدل، در بهرهوری صرفهجویی کند. این روش همچنین زمانی که داده برای وظیفه جدید محدود است مفید است، اما توجه به این نکته مهم است که مدلهای مبتنی بر یادگیری انتقالی احتمالاً برای عملکرد خوب در حوزه تمرکز خود به آموزش با دادههای اضافی نیاز دارند.
وزنها (Weights) هسته اصلی آموزش هوش مصنوعی هستند و تعیین میکنند که چه مقدار اهمیت به ویژگیهای مختلف (یا متغیرهای ورودی) در دادههای مورد استفاده برای آموزش سیستم داده شود و در نتیجه خروجی مدل هوش مصنوعی را شکل میدهند. به عبارت دیگر، وزنها پارامترهای عددی هستند که مشخص میکنند چه چیزی در مجموعه داده برای وظیفه آموزشی معین مهمترین است. آموزش مدل معمولاً با وزنهای تصادفی شروع میشود، اما با پیشرفت فرآیند، وزنها تنظیم میشوند تا مدل به خروجی نزدیکتری به هدف برسد. به عنوان مثال، یک مدل هوش مصنوعی برای پیشبینی قیمت مسکن ممکن است وزنهایی برای ویژگیهایی مانند تعداد اتاق خواب، پارکینگ و گاراژ داشته باشد. در نهایت، وزنهایی که مدل به هر یک از این ورودیها اختصاص میدهد، نشاندهنده میزان تأثیر آنها بر ارزش ملک بر اساس مجموعه داده معین است.
منبع: تککرانچ