پرورش فرزند

مرجان 
  بازدید : 76
دوشنبه 24 آبان 1400 زمان : 17:04 


1
2
3
4
5

انسان‌ها گونه‌ ای هستند که می‌توانند خود را با چالش‌های محیطی وفق دهند، و در طول سال‌ها این ما را قادر به تکامل بیولوژیکی کرده است - یک ویژگی اساسی که در حیوانات یافت می‌شود اما در هوش مصنوعی تربیت کودک وجود ندارد. اگرچه یادگیری ماشین در بازی‌ های پیچیده‌ای مانند Go و Dota 2 پیشرفت چشمگیری داشته است، مهارت‌های تسلط بر این عرصه‌ها لزوماً به کاربردهای عملی در سناریوهای دنیای واقعی تعمیم نمی‌یابند. هدف تعداد فزاینده‌ای از محققین ساختن هوش ماشینی است که بیشتر شبیه انسان‌ها رفتار می‌کند، یاد می‌گیرد و تکامل می‌یابد.

مقاله ایی جدید من باب تربیت اصولی

مقاله جدیدی از OpenAI مستقر در سانفرانسیسکو پیشنهاد پکیج آموزش تربیت کودک می‌کند که آموزش مدل‌ها در بازی پنهان کردن کودکان و قرار دادن آن‌ها در مقابل یکدیگر در ده‌ها میلیون مسابقه، منجر به این می‌شود که مدل‌ها به طور خودکار رفتارهای انسان‌مانندی را ایجاد کنند که هوش آن‌ها را افزایش می‌دهد و پس از آن بهبود می‌یابد. کارایی.

پنهان کاری کودکان

چرا پنهان کاری؟ بوئن بیکر، محقق OpenAI، اولین نویسنده مقاله میگوید که پنهان کاری به عنوان یک نقطه شروع سرگرم کننده بیشتر به دلیل قوانین ساده آن انتخاب شد.

قوانین بازی: همه عوامل به عنوان اشیاء کروی شبیه سازی شده اند که می توانند سه نوع عمل انجام دهند: پیمایش. چنگ زدن و حرکت دادن اشیا؛ و اشیاء را قفل کنید که فقط توسط هم تیمی های آن عامل باز می شود.

دلایل پنهان کاری کودکان

محققان یک تا سه «پنهان‌گر» و یک تا سه «جستجو» را در محیط‌های شبیه‌سازی‌شده و زمین‌بندی‌شده فیزیکی با اتاق‌هایی که با دیوارهای ساکن مرزبندی شده بودند، قرار دادند. محیط ها همچنین شامل جعبه های متحرک با اندازه های مختلف و رمپ های متحرک بودند. محققان از یادگیری تقویتی برای آموزش عواملی استفاده کردند که سیگنال پاداش آنها - مکانیسم تشویقی برای تحریک عوامل برای دستیابی به اهدافشان - از قوانین ساده پنهانکاری پیروی می کرد: پنهان کاران وقتی از دید جویندگان پنهان می مانند، پاداش دریافت می کنند و جویندگان پاداش دریافت می کنند. وقتی مخفی گاه ها را پیدا می کنند.

چگونه هوش مصنوعی مخفی کاری می کند

در طول فرایند آموزش، عوامل هوش مصنوعی در چندین مرحله از استراتژی ها تکامل یافتند. در آغاز پنهان کاران (آبی) فقط فرار از جویندگان (قرمز) را آموختند. با پیشرفت گیم پلی، پنهان کنندگان شروع به استفاده از ابزارهایی به نفع خود کردند، به عنوان مثال، جعبه ها را برای مسدود کردن درها حرکت دادند تا جویندگان نتوانند وارد اتاق آنها شوند.

با پیچیده‌تر شدن محیط‌ها، پنهان‌کاران یاد گرفتند که با استفاده از جعبه‌های دراز «قلعه‌های» مستحکم‌تری بسازند. اگرچه OpenAI بر این باور بود که این استراتژی نهایی خواهد بود، اما جویندگان بار دیگر با موفقیت مقابله کردند - راهی را برای پریدن روی جعبه و استفاده از حرکت برای «موج‌سواری» در بالای آن، از روی دیوار و داخل قلعه پنهان‌سازان پیدا کردند.

در مرحله آخر، پنهان‌کاران یاد گرفتند که با قفل کردن تمام جعبه‌ها قبل از ساختن قلعه خود، در برابر «موج‌سواری باکس» دفاع کنند.

محققان از تکامل این استراتژی‌های مختلف به عنوان «پیشرفت مهارت‌های نوظهور از برنامه‌های آموزشی چند عاملی» یاد می‌کنند. اصطلاح "خودکار آموزشی" امسال توسط DeepMind ابداع شد و برای چندین عامل به کار می رود که به تدریج وظایف جدیدی را برای به چالش کشیدن یکدیگر در یک محیط خاص ایجاد می کنند. محققان OpenAI بر این باورند که این فرآیند مشابهاتی در انتخاب طبیعی دارد.

"چرا ما واقعاً در مورد این موضوع هیجان زده هستیم این است که به نوعی پویایی های مشابهی را می بینیم که روی زمین با تکامل دیده ایم. بنابراین شما همه این نوع موجودات را روی زمین دارید که در حال رقابت و تکامل با هم بودند. و در نهایت از آن انسان هایی به دست آمد که به نوعی AGI جهان طبیعی هستند.

چرا این تحقیق اهمیت دارد: با توجه به هدف نسبتاً ساده پنهانکاری، چندین عامل آموزش تربیت کودکان دیده از طریق خودبازی رقابتی یاد گرفتند که از ابزارها استفاده کنند و مهارت های مربوط به انسان را برای پیروزی به کار گرفتند. OpenAI معتقد است که این یک جهت تحقیقاتی امیدوارکننده برای توسعه و استقرار عامل هوشمند آینده است.

OpenAI به منظور تشویق تحقیقات بیشتر در این زمینه، کدها و محیط های خود را منبع باز می کند. یکی از نویسندگان مقاله، محقق OpenAI، یی وو، به Synced گفت: «جامعه دانشگاهی واقعاً به محیط‌ها و مشکلات خوب و جالب برای مطالعه نیاز دارد. این محیط کمی پیچیده‌تر از دنیای ذرات دو بعدی است و مانند StarCraft فوق‌العاده پیچیده نیست.

چرا OpenAI علاقه مند است

هدف نهایی OpenAI ایجاد یک هوش عمومی مصنوعی (AGI) است که قادر به انجام بسیاری تربیت کودکان از وظایف در یک سیستم عمومی است. در حالی که ممکن است مسیرهای متفاوتی برای رسیدن به این هدف وجود داشته باشد، OpenAI در حال دو برابر کردن تحقیقات یادگیری تقویتی است که توسط قدرت محاسباتی عظیم فعال می شود. OpenAI اخیرا یک قرارداد محاسباتی 10 ساله با مایکروسافت به ارزش یک میلیارد دلار امضا کرده است.

آموزش کودک برای بازی کامپیوتری

عوامل هوش مصنوعی میلیون ها بار به طور موازی آموزش دیده اند. آموزش به سمت مرحله نهایی (دفاع موج سواری) در پیچیده ترین محیط سه تا چهار روز بر روی 16 GPU و 4000 CPU طول کشید.

نتایج آزمایش

در مقایسه با الگوریتم‌های قبلی مانند انگیزه درونی، سیاست پنهان‌کاری تربیت کودکان بسیار بیشتر قابل تفسیر توسط انسان است. محققان همچنین روش پنهان و جستجوی چند عاملی را در شمارش اشیا، قفل و بازگشت، قفل متوالی، ساخت طرح اولیه و وظایف هوشمندی ساخت سرپناه ارزیابی کردند. عوامل در سه کار از پنج کار بهتر از مدل های پایه عمل کردند.

چالش های تربیت کودک

بیکر به Synced گفت که عوامل گاهی اوقات رفتارهای شگفت انگیزی از خود نشان می دهند. برای مثال، مخفی‌ کنندگان سعی کردند به طور کلی از منطقه بازی فرار کنند تا زمانی که محققان برای آن جریمه اعمال کردند. چالش های دیگر را می توان به اشکالات موجود در فیزیک تماس محیط شبیه سازی شده نسبت داد.

برای مثال، مخفی‌کاران آموختند که اگر یک سطح شیبدار را در گوشه‌ها تربیت کودکان به دیوارها فشار دهند، به دلایلی سطح شیبدار از دیوارها عبور می‌کند و سپس ناپدید می‌شود. چنین «تقلب‌هایی» نشان می‌دهد که چگونه ایمنی الگوریتم‌ها می‌تواند نقش مهمی در یادگیری ماشین بازی کند. قبل از اینکه این اتفاق بیفتد، هرگز نمی دانید. این نوع سیستم ها همیشه ایراداتی دارند. آنچه ما انجام دادیم اساساً مشاهده و تجسم سیاست است تا بتوانیم این اتفاق عجیب را ببینیم. وو می‌گوید سپس سعی می‌کنیم فیزیک را درست کنیم.

منبع:

https://masiresaabz.com/product/%D8%AA%D8%B1%D8%A8%DB%8C%D8%AA-%DA%A9%D9%88%D8%AF%DA%A9-%D8%B4%D8%A7%D8%AF-%D9%85%D9%88%D9%81%D9%82/