DeepMind کشف AlphaDev را با یکی از حرکات عجیب اما برنده AlphaGo در مسابقه Go خود در برابر استاد بزرگ لی سدول در سال 2016 مقایسه میکند. «همه کارشناسان به این حرکت نگاه کردند و گفتند، این کار درستی نیست. مانکوویتز میگوید این حرکت ضعیفی است. اما در واقع این حرکت درستی بود و AlphaGo نه تنها برنده بازی شد، بلکه بر استراتژیهایی که بازیکنان حرفهای Go شروع به استفاده از آن کردند نیز تأثیر گذاشت.»
سندرز تحت تاثیر قرار گرفته است، اما او فکر نمی کند که نتایج را باید بیش از حد فروخت. او میگوید: «من موافقم که تکنیکهای یادگیری ماشینی به طور فزایندهای در برنامهنویسی تغییردهنده بازی هستند، و همه انتظار دارند که هوش مصنوعی به زودی قادر به اختراع الگوریتمهای جدید و بهتر باشد. “اما ما هنوز کاملاً به آنجا نرسیده ایم.”
برای یک چیز، سندرز اشاره می کند که AlphaDev فقط از زیر مجموعه ای از دستورالعمل های موجود در اسمبلی استفاده می کند. او میگوید بسیاری از الگوریتمهای مرتبسازی موجود از دستورالعملهایی استفاده میکنند که AlphaDev آنها را امتحان نکرده است. این امر مقایسه AlphaDev با بهترین رویکردهای رقیب را دشوارتر می کند.
درست است که AlphaDev محدودیت هایی دارد. طولانی ترین الگوریتم تولید شده 130 دستورالعمل برای مرتب کردن لیستی از حداکثر پنج مورد بود. در هر مرحله، AlphaDev از 297 دستورالعمل مونتاژ ممکن (از بین بسیاری دیگر) انتخاب کرد. مانکوویتز میگوید: «فرای 297 دستورالعمل و بازی مونتاژی با بیش از 130 دستورالعمل، یادگیری کند شد.
به این دلیل که حتی با 297 دستورالعمل (یا حرکت بازی)، تعداد الگوریتمهای ممکن که AlphaDev میتواند بسازد از تعداد بازیهای ممکن در شطرنج بیشتر است (10).120) و تعداد اتم های جهان (که تصور می شود حدود 10 باشد80).
برای الگوریتمهای طولانیتر، تیم قصد دارد AlphaDev را برای کار با دستورالعملهای C++ به جای اسمبلی تطبیق دهد. با کنترل دقیق کمتر AlphaDev ممکن است میانبرهای خاصی را از دست بدهد، اما این رویکرد برای طیف گستردهتری از الگوریتمها قابل استفاده است.
سندرز همچنین مایل است مقایسه جامع تری با بهترین رویکردهای ابداع شده توسط انسان، به ویژه برای الگوریتم های طولانی تر، ببیند. DeepMind می گوید که این بخشی از برنامه آن است. Mankowitz میخواهد AlphaDev را با بهترین روشهای ابداع شده توسط انسان ترکیب کند و هوش مصنوعی را به جای شروع از صفر، بر اساس شهود انسان بسازد.
به هر حال، ممکن است افزایش سرعت بیشتری پیدا شود. مانکوویتز میگوید: «برای اینکه یک انسان این کار را انجام دهد، به تخصص قابل توجه و ساعتهای زیادی – شاید روزها، شاید هفتهها – نیاز دارد تا این برنامهها را بررسی کند و پیشرفتها را شناسایی کند.» “در نتیجه، قبلاً این کار انجام نشده است.”