
Image Credits:vgajic / Getty Images
ابزارهای کدنویسی جدید «ایجنتیک»؛ از کادکس اوپنایآی تا چالشهای دوین
ابزارهای کدنویسی جدید «ایجنتیک» مانند کادکس اوپنایآی با هدف کار مستقلتر معرفی شدهاند، اما چالشهایی مانند نیاز به نظارت انسانی و مشکل «توهمات» همچنان پابرجا هستند.
۱۴۰۴/۰۲/۳۰
اوپنایآی ابزار کدنویسی جدید «ایجنتیک» به نام کادکس را معرفی کرد. این ابزارها برخلاف دستیاران قدیمی، قصد دارند کار برنامهنویسی را بهطور خودکار انجام دهند. محصولاتی مانند دوین چالشهایی در زمینه نیاز به نظارت و خطاهای «توهمات» نشان دادهاند. قابلیت اطمینان همچنان موضوع کلیدی برای موفقیت این فناوری است.
جمعه گذشته، اوپنایآی یک سیستم کدنویسی جدید به نام کادکس (Codex) معرفی کرد که برای انجام وظایف پیچیده برنامهنویسی از طریق دستورات زبان طبیعی طراحی شده است. کادکس، اوپنایآی را وارد گروه جدیدی از ابزارهای کدنویسی «ایجنتیک» (agentic coding tools) میکند که بهتازگی در حال شکلگیری هستند.
برخلاف بیشتر دستیاران کدنویسی مبتنی بر هوش مصنوعی که در حال حاضر وجود دارند، مانند کاپایلوت اولیه گیتهاب یا ابزارهای امروزیتر مثل کرسر و ویندسرف که عمدتاً به عنوان یک تکمیلکننده خودکار بسیار هوشمند عمل میکنند و کاربران مستقیماً با کد تولید شده توسط هوش مصنوعی سروکار دارند، ابزارهای کدنویسی ایجنتیک جدید – که محصولاتی مانند دوین (Devin)، SWE-Agent، اوپنهندز (OpenHands) و کادکس اوپنایآی در خط مقدم آنها قرار دارند – به گونهای طراحی شدهاند که بدون نیاز به مشاهده کد توسط کاربر کار کنند. هدف این ابزارها این است که مانند یک مدیر تیم مهندسی عمل کنند و وظایف را از طریق سیستمهای کاری مانند آسانا یا اسلک محول کرده و پس از حل شدن مسئله، نتیجه را گزارش دهند.
کیلین لییِرت (Kilian Lieret)، محقق دانشگاه پرینستون و عضو تیم SWE-Agent، این تحول را گام منطقی بعدی در پیشرفت طبیعی اتوماسیون میداند که بخش فزایندهای از کارهای نرمافزاری را بر عهده میگیرد. او توضیح میدهد: «در ابتدا، مردم با فشردن هر کلید کد مینوشتند. گیتهاب کاپایلوت اولین محصولی بود که تکمیل خودکار واقعی را ارائه داد، که میتوان آن را مرحله دوم دانست. شما هنوز بهطور کامل در حلقه [کار] هستید، اما گاهی میتوانید میانبر بزنید.» به گفته لییِرت، هدف سیستمهای ایجنتیک این است که بهکلی از محیطهای توسعه خارج شوند و به جای آن، یک مسئله را به عامل کدنویسی ارائه دهند و حل آن را بهطور کامل به او بسپارند.
این هدف جاهطلبانه است و تاکنون دشواریهای خود را نشان داده است. پس از عرضه عمومی دوین در پایان سال ۲۰۲۴، این ابزار با انتقادات شدیدی از سوی برخی متخصصان یوتیوب و همچنین انتقادی سنجیدهتر از یک مشتری اولیه در Answer.AI مواجه شد. برداشت کلی برای کسانی که تجربه کار با این نوع ابزارها را دارند، آشنا بود: با وجود خطاهای زیاد، نظارت بر عملکرد مدلها به اندازه انجام دستی کار وقتگیر است. با این حال، عرضه نسبتاً دشوار دوین مانع سرمایهگذاران نشد؛ طبق گزارشها، شرکت مادر دوین، Cognition AI، در ماه مارس صدها میلیون دلار با ارزشگذاری ۴ میلیارد دلار جذب سرمایه کرد.
حتی حامیان این فناوری نیز نسبت به استفاده بدون نظارت احتیاط میکنند و عاملان کدنویسی جدید را عناصری قدرتمند در یک فرآیند توسعه تحت نظارت انسانی میبینند.
رابرت برنن (Robert Brennan)، مدیرعامل All Hands AI که اوپنهندز را توسعه میدهد، میگوید: «در حال حاضر و به نظر من در آینده نزدیک، یک انسان باید در مرحله بازبینی کد (code review) برای بررسی کدهای نوشتهشده دخالت کند.» او اضافه میکند: «من دیدهام که چندین نفر با تأیید خودکار هر قطعه کدی که عامل مینویسد، خودشان را به دردسر انداختهاند. اوضاع بهسرعت از کنترل خارج میشود.»
«توهمات» (Hallucinations) نیز یک مشکل ادامهدار هستند. برنن به حادثهای اشاره میکند که در آن، وقتی درباره یک رابط برنامهنویسی کاربردی (API) که پس از تاریخ قطع دادههای آموزشی عامل اوپنهندز منتشر شده بود از آن سؤال شد، عامل جزئیاتی از یک API را که با توضیحات مطابقت داشت، «ساخت». شرکت All Hands AI اعلام کرده است که در حال کار بر روی سیستمهایی برای تشخیص این توهمات قبل از ایجاد مشکل است، اما راهحل سادهای وجود ندارد.
شاید بهترین معیار پیشرفت در برنامهنویسی ایجنتیک، جداول امتیازات SWE-Bench باشد که در آن توسعهدهندگان میتوانند مدلهای خود را در برابر مجموعهای از مسائل حلنشده از مخازن عمومی گیتهاب آزمایش کنند. اوپنهندز در حال حاضر با حل ۶۵.۸ درصد از مجموعه مسائل، جایگاه اول را در جدول تأییدشده دارد. اوپنایآی ادعا میکند که یکی از مدلهای قدرتمند کننده کادکس، codex-1، میتواند عملکرد بهتری داشته باشد و در اعلامیه خود امتیاز ۷۲.۱ درصد را ذکر کرده است – اگرچه این امتیاز با چند ملاحظه همراه بوده و بهطور مستقل تأیید نشده است.
نگرانی بسیاری در صنعت فناوری این است که امتیازات بالای بنچمارک لزوماً به کدنویسی ایجنتیک کاملاً خودکار منجر نمیشود. اگر عاملان کدنویسی تنها سه از هر چهار مسئله را حل کنند، نیاز به نظارت قابل توجهی از سوی توسعهدهندگان انسانی خواهند داشت – بهخصوص هنگام کار با سیستمهای پیچیده چندمرحلهای.
مانند بیشتر ابزارهای هوش مصنوعی، امیدواری این است که پیشرفت در مدلهای پایه با سرعت ثابتی ادامه یابد و نهایتاً سیستمهای کدنویسی ایجنتیک بتوانند به ابزارهای توسعهدهنده قابل اعتماد تبدیل شوند. اما یافتن راههایی برای مدیریت توهمات و سایر مشکلات قابلیت اطمینان برای دستیابی به این هدف حیاتی خواهد بود.
برنن میگوید: «فکر میکنم کمی اثر دیوار صوتی وجود دارد. سؤال این است که چقدر میتوان اعتماد را به عوامل تغییر داد تا در نهایت بخش بیشتری از حجم کاری شما را بر عهده بگیرند؟»
منبع: تککرانچ