انسانها گونه ای هستند که میتوانند خود را با چالشهای محیطی وفق دهند، و در طول سالها این ما را قادر به تکامل بیولوژیکی کرده است - یک ویژگی اساسی که در حیوانات یافت میشود اما در هوش مصنوعی تربیت کودک وجود ندارد. اگرچه یادگیری ماشین در بازی های پیچیدهای مانند Go و Dota 2 پیشرفت چشمگیری داشته است، مهارتهای تسلط بر این عرصهها لزوماً به کاربردهای عملی در سناریوهای دنیای واقعی تعمیم نمییابند. هدف تعداد فزایندهای از محققین ساختن هوش ماشینی است که بیشتر شبیه انسانها رفتار میکند، یاد میگیرد و تکامل مییابد.
مقاله ایی جدید من باب تربیت اصولی
مقاله جدیدی از OpenAI مستقر در سانفرانسیسکو پیشنهاد پکیج آموزش تربیت کودک میکند که آموزش مدلها در بازی پنهان کردن کودکان و قرار دادن آنها در مقابل یکدیگر در دهها میلیون مسابقه، منجر به این میشود که مدلها به طور خودکار رفتارهای انسانمانندی را ایجاد کنند که هوش آنها را افزایش میدهد و پس از آن بهبود مییابد. کارایی.
پنهان کاری کودکان
چرا پنهان کاری؟ بوئن بیکر، محقق OpenAI، اولین نویسنده مقاله میگوید که پنهان کاری به عنوان یک نقطه شروع سرگرم کننده بیشتر به دلیل قوانین ساده آن انتخاب شد.
قوانین بازی: همه عوامل به عنوان اشیاء کروی شبیه سازی شده اند که می توانند سه نوع عمل انجام دهند: پیمایش. چنگ زدن و حرکت دادن اشیا؛ و اشیاء را قفل کنید که فقط توسط هم تیمی های آن عامل باز می شود.
دلایل پنهان کاری کودکان
محققان یک تا سه «پنهانگر» و یک تا سه «جستجو» را در محیطهای شبیهسازیشده و زمینبندیشده فیزیکی با اتاقهایی که با دیوارهای ساکن مرزبندی شده بودند، قرار دادند. محیط ها همچنین شامل جعبه های متحرک با اندازه های مختلف و رمپ های متحرک بودند. محققان از یادگیری تقویتی برای آموزش عواملی استفاده کردند که سیگنال پاداش آنها - مکانیسم تشویقی برای تحریک عوامل برای دستیابی به اهدافشان - از قوانین ساده پنهانکاری پیروی می کرد: پنهان کاران وقتی از دید جویندگان پنهان می مانند، پاداش دریافت می کنند و جویندگان پاداش دریافت می کنند. وقتی مخفی گاه ها را پیدا می کنند.
چگونه هوش مصنوعی مخفی کاری می کند
در طول فرایند آموزش، عوامل هوش مصنوعی در چندین مرحله از استراتژی ها تکامل یافتند. در آغاز پنهان کاران (آبی) فقط فرار از جویندگان (قرمز) را آموختند. با پیشرفت گیم پلی، پنهان کنندگان شروع به استفاده از ابزارهایی به نفع خود کردند، به عنوان مثال، جعبه ها را برای مسدود کردن درها حرکت دادند تا جویندگان نتوانند وارد اتاق آنها شوند.
با پیچیدهتر شدن محیطها، پنهانکاران یاد گرفتند که با استفاده از جعبههای دراز «قلعههای» مستحکمتری بسازند. اگرچه OpenAI بر این باور بود که این استراتژی نهایی خواهد بود، اما جویندگان بار دیگر با موفقیت مقابله کردند - راهی را برای پریدن روی جعبه و استفاده از حرکت برای «موجسواری» در بالای آن، از روی دیوار و داخل قلعه پنهانسازان پیدا کردند.
در مرحله آخر، پنهانکاران یاد گرفتند که با قفل کردن تمام جعبهها قبل از ساختن قلعه خود، در برابر «موجسواری باکس» دفاع کنند.
محققان از تکامل این استراتژیهای مختلف به عنوان «پیشرفت مهارتهای نوظهور از برنامههای آموزشی چند عاملی» یاد میکنند. اصطلاح "خودکار آموزشی" امسال توسط DeepMind ابداع شد و برای چندین عامل به کار می رود که به تدریج وظایف جدیدی را برای به چالش کشیدن یکدیگر در یک محیط خاص ایجاد می کنند. محققان OpenAI بر این باورند که این فرآیند مشابهاتی در انتخاب طبیعی دارد.
"چرا ما واقعاً در مورد این موضوع هیجان زده هستیم این است که به نوعی پویایی های مشابهی را می بینیم که روی زمین با تکامل دیده ایم. بنابراین شما همه این نوع موجودات را روی زمین دارید که در حال رقابت و تکامل با هم بودند. و در نهایت از آن انسان هایی به دست آمد که به نوعی AGI جهان طبیعی هستند.
چرا این تحقیق اهمیت دارد: با توجه به هدف نسبتاً ساده پنهانکاری، چندین عامل آموزش تربیت کودکان دیده از طریق خودبازی رقابتی یاد گرفتند که از ابزارها استفاده کنند و مهارت های مربوط به انسان را برای پیروزی به کار گرفتند. OpenAI معتقد است که این یک جهت تحقیقاتی امیدوارکننده برای توسعه و استقرار عامل هوشمند آینده است.
OpenAI به منظور تشویق تحقیقات بیشتر در این زمینه، کدها و محیط های خود را منبع باز می کند. یکی از نویسندگان مقاله، محقق OpenAI، یی وو، به Synced گفت: «جامعه دانشگاهی واقعاً به محیطها و مشکلات خوب و جالب برای مطالعه نیاز دارد. این محیط کمی پیچیدهتر از دنیای ذرات دو بعدی است و مانند StarCraft فوقالعاده پیچیده نیست.
چرا OpenAI علاقه مند است
هدف نهایی OpenAI ایجاد یک هوش عمومی مصنوعی (AGI) است که قادر به انجام بسیاری تربیت کودکان از وظایف در یک سیستم عمومی است. در حالی که ممکن است مسیرهای متفاوتی برای رسیدن به این هدف وجود داشته باشد، OpenAI در حال دو برابر کردن تحقیقات یادگیری تقویتی است که توسط قدرت محاسباتی عظیم فعال می شود. OpenAI اخیرا یک قرارداد محاسباتی 10 ساله با مایکروسافت به ارزش یک میلیارد دلار امضا کرده است.
آموزش کودک برای بازی کامپیوتری
عوامل هوش مصنوعی میلیون ها بار به طور موازی آموزش دیده اند. آموزش به سمت مرحله نهایی (دفاع موج سواری) در پیچیده ترین محیط سه تا چهار روز بر روی 16 GPU و 4000 CPU طول کشید.
نتایج آزمایش
در مقایسه با الگوریتمهای قبلی مانند انگیزه درونی، سیاست پنهانکاری تربیت کودکان بسیار بیشتر قابل تفسیر توسط انسان است. محققان همچنین روش پنهان و جستجوی چند عاملی را در شمارش اشیا، قفل و بازگشت، قفل متوالی، ساخت طرح اولیه و وظایف هوشمندی ساخت سرپناه ارزیابی کردند. عوامل در سه کار از پنج کار بهتر از مدل های پایه عمل کردند.
چالش های تربیت کودک
بیکر به Synced گفت که عوامل گاهی اوقات رفتارهای شگفت انگیزی از خود نشان می دهند. برای مثال، مخفی کنندگان سعی کردند به طور کلی از منطقه بازی فرار کنند تا زمانی که محققان برای آن جریمه اعمال کردند. چالش های دیگر را می توان به اشکالات موجود در فیزیک تماس محیط شبیه سازی شده نسبت داد.
برای مثال، مخفیکاران آموختند که اگر یک سطح شیبدار را در گوشهها تربیت کودکان به دیوارها فشار دهند، به دلایلی سطح شیبدار از دیوارها عبور میکند و سپس ناپدید میشود. چنین «تقلبهایی» نشان میدهد که چگونه ایمنی الگوریتمها میتواند نقش مهمی در یادگیری ماشین بازی کند. قبل از اینکه این اتفاق بیفتد، هرگز نمی دانید. این نوع سیستم ها همیشه ایراداتی دارند. آنچه ما انجام دادیم اساساً مشاهده و تجسم سیاست است تا بتوانیم این اتفاق عجیب را ببینیم. وو میگوید سپس سعی میکنیم فیزیک را درست کنیم.