Group of young programmers running their own startup business from home office. They are coding together on their laptops. Young man helping his female colleague on new code that they working on. Overhead view. Location is released.
هوش مصنوعی

ابزارهای کدنویسی جدید «ایجنتیک»؛ از کادکس اوپن‌ای‌آی تا چالش‌های دوین

ابزارهای کدنویسی جدید «ایجنتیک» مانند کادکس اوپن‌ای‌آی با هدف کار مستقل‌تر معرفی شده‌اند، اما چالش‌هایی مانند نیاز به نظارت انسانی و مشکل «توهمات» همچنان پابرجا هستند.

۱۴۰۴/۰۲/۳۰

اوپن‌ای‌آی ابزار کدنویسی جدید «ایجنتیک» به نام کادکس را معرفی کرد. این ابزارها برخلاف دستیاران قدیمی، قصد دارند کار برنامه‌نویسی را به‌طور خودکار انجام دهند. محصولاتی مانند دوین چالش‌هایی در زمینه نیاز به نظارت و خطاهای «توهمات» نشان داده‌اند. قابلیت اطمینان همچنان موضوع کلیدی برای موفقیت این فناوری است.

جمعه گذشته، اوپن‌ای‌آی یک سیستم کدنویسی جدید به نام کادکس (Codex) معرفی کرد که برای انجام وظایف پیچیده برنامه‌نویسی از طریق دستورات زبان طبیعی طراحی شده است. کادکس، اوپن‌ای‌آی را وارد گروه جدیدی از ابزارهای کدنویسی «ایجنتیک» (agentic coding tools) می‌کند که به‌تازگی در حال شکل‌گیری هستند.

برخلاف بیشتر دستیاران کدنویسی مبتنی بر هوش مصنوعی که در حال حاضر وجود دارند، مانند کاپایلوت اولیه گیت‌هاب یا ابزارهای امروزی‌تر مثل کرسر و ویندسرف که عمدتاً به عنوان یک تکمیل‌کننده خودکار بسیار هوشمند عمل می‌کنند و کاربران مستقیماً با کد تولید شده توسط هوش مصنوعی سروکار دارند، ابزارهای کدنویسی ایجنتیک جدید – که محصولاتی مانند دوین (Devin)، SWE-Agent، اوپن‌هندز (OpenHands) و کادکس اوپن‌ای‌آی در خط مقدم آن‌ها قرار دارند – به گونه‌ای طراحی شده‌اند که بدون نیاز به مشاهده کد توسط کاربر کار کنند. هدف این ابزارها این است که مانند یک مدیر تیم مهندسی عمل کنند و وظایف را از طریق سیستم‌های کاری مانند آسانا یا اسلک محول کرده و پس از حل شدن مسئله، نتیجه را گزارش دهند.

کیلین لی‌یِرت (Kilian Lieret)، محقق دانشگاه پرینستون و عضو تیم SWE-Agent، این تحول را گام منطقی بعدی در پیشرفت طبیعی اتوماسیون می‌داند که بخش فزاینده‌ای از کارهای نرم‌افزاری را بر عهده می‌گیرد. او توضیح می‌دهد: «در ابتدا، مردم با فشردن هر کلید کد می‌نوشتند. گیت‌هاب کاپایلوت اولین محصولی بود که تکمیل خودکار واقعی را ارائه داد، که می‌توان آن را مرحله دوم دانست. شما هنوز به‌طور کامل در حلقه [کار] هستید، اما گاهی می‌توانید میان‌بر بزنید.» به گفته لی‌یِرت، هدف سیستم‌های ایجنتیک این است که به‌کلی از محیط‌های توسعه خارج شوند و به جای آن، یک مسئله را به عامل کدنویسی ارائه دهند و حل آن را به‌طور کامل به او بسپارند.

این هدف جاه‌طلبانه است و تاکنون دشواری‌های خود را نشان داده است. پس از عرضه عمومی دوین در پایان سال ۲۰۲۴، این ابزار با انتقادات شدیدی از سوی برخی متخصصان یوتیوب و همچنین انتقادی سنجیده‌تر از یک مشتری اولیه در Answer.AI مواجه شد. برداشت کلی برای کسانی که تجربه کار با این نوع ابزارها را دارند، آشنا بود: با وجود خطاهای زیاد، نظارت بر عملکرد مدل‌ها به اندازه انجام دستی کار وقت‌گیر است. با این حال، عرضه نسبتاً دشوار دوین مانع سرمایه‌گذاران نشد؛ طبق گزارش‌ها، شرکت مادر دوین، Cognition AI، در ماه مارس صدها میلیون دلار با ارزش‌گذاری ۴ میلیارد دلار جذب سرمایه کرد.

حتی حامیان این فناوری نیز نسبت به استفاده بدون نظارت احتیاط می‌کنند و عاملان کدنویسی جدید را عناصری قدرتمند در یک فرآیند توسعه تحت نظارت انسانی می‌بینند.

رابرت برنن (Robert Brennan)، مدیرعامل All Hands AI که اوپن‌هندز را توسعه می‌دهد، می‌گوید: «در حال حاضر و به نظر من در آینده نزدیک، یک انسان باید در مرحله بازبینی کد (code review) برای بررسی کدهای نوشته‌شده دخالت کند.» او اضافه می‌کند: «من دیده‌ام که چندین نفر با تأیید خودکار هر قطعه کدی که عامل می‌نویسد، خودشان را به دردسر انداخته‌اند. اوضاع به‌سرعت از کنترل خارج می‌شود.»

«توهمات» (Hallucinations) نیز یک مشکل ادامه‌دار هستند. برنن به حادثه‌ای اشاره می‌کند که در آن، وقتی درباره یک رابط برنامه‌نویسی کاربردی (API) که پس از تاریخ قطع داده‌های آموزشی عامل اوپن‌هندز منتشر شده بود از آن سؤال شد، عامل جزئیاتی از یک API را که با توضیحات مطابقت داشت، «ساخت». شرکت All Hands AI اعلام کرده است که در حال کار بر روی سیستم‌هایی برای تشخیص این توهمات قبل از ایجاد مشکل است، اما راه‌حل ساده‌ای وجود ندارد.

شاید بهترین معیار پیشرفت در برنامه‌نویسی ایجنتیک، جداول امتیازات SWE-Bench باشد که در آن توسعه‌دهندگان می‌توانند مدل‌های خود را در برابر مجموعه‌ای از مسائل حل‌نشده از مخازن عمومی گیت‌هاب آزمایش کنند. اوپن‌هندز در حال حاضر با حل ۶۵.۸ درصد از مجموعه مسائل، جایگاه اول را در جدول تأییدشده دارد. اوپن‌ای‌آی ادعا می‌کند که یکی از مدل‌های قدرتمند کننده کادکس، codex-1، می‌تواند عملکرد بهتری داشته باشد و در اعلامیه خود امتیاز ۷۲.۱ درصد را ذکر کرده است – اگرچه این امتیاز با چند ملاحظه همراه بوده و به‌طور مستقل تأیید نشده است.

نگرانی بسیاری در صنعت فناوری این است که امتیازات بالای بنچمارک لزوماً به کدنویسی ایجنتیک کاملاً خودکار منجر نمی‌شود. اگر عاملان کدنویسی تنها سه از هر چهار مسئله را حل کنند، نیاز به نظارت قابل توجهی از سوی توسعه‌دهندگان انسانی خواهند داشت – به‌خصوص هنگام کار با سیستم‌های پیچیده چندمرحله‌ای.

مانند بیشتر ابزارهای هوش مصنوعی، امیدواری این است که پیشرفت در مدل‌های پایه با سرعت ثابتی ادامه یابد و نهایتاً سیستم‌های کدنویسی ایجنتیک بتوانند به ابزارهای توسعه‌دهنده قابل اعتماد تبدیل شوند. اما یافتن راه‌هایی برای مدیریت توهمات و سایر مشکلات قابلیت اطمینان برای دستیابی به این هدف حیاتی خواهد بود.

برنن می‌گوید: «فکر می‌کنم کمی اثر دیوار صوتی وجود دارد. سؤال این است که چقدر می‌توان اعتماد را به عوامل تغییر داد تا در نهایت بخش بیشتری از حجم کاری شما را بر عهده بگیرند؟»

منبع: تک‌کرانچ

به مطالعه ادامه دهید