یک روش یادگیری تقویت عمیق بدون مدل برای مقابله با مشکلات کنترل ع
برایان میچل و لیندا پتزولد ، دو محقق در دانشگاه کالیفرنیا ، اخیراً یادگیری تقویت عمیق بدون مدل را در مدلهای پویایی عصبی به کار گرفته اند و به نتایج بسیار امیدوارکننده ای رسیده اند.
یادگیری تقویت بخشی از یادگیری ماشین با الهام از روانشناسی رفتاری است که الگوریتم هایی را برای انجام مؤثر وظایف خاص ، با استفاده از سیستمی مبتنی بر پاداش و مجازات ، آموزش می دهد. نقطه عطف برجسته در این منطقه توسعه شبکه Deep-Q-DQN (DQN) است که در ابتدا برای آموزش رایانه برای انجام بازی های آتاری مورد استفاده قرار می گرفت.
یادگیری تقویتی بدون مدل برای انواع مختلفی اعمال شده است ، اما معمولاً از DQN استفاده نمی شود. دلیل اصلی این امر این است که DQN می تواند تعداد محدودی از اقدامات را پیشنهاد کند ، در حالی که مشکلات جسمی به طور کلی نیاز به روشی دارد که بتواند یک ادامه اقدامات را پیشنهاد دهد.
میچل و پتزولد هنگام خواندن ادبیات موجود در مورد کنترل عصبی ، متوجه استفاده گسترده از یک الگوی کلاسیک برای حل مشکلات کنترل عصبی با استراتژی های یادگیری ماشین شدند. ابتدا مهندس و آزمایشگر درباره هدف و طرح مطالعه خود به توافق برسند. سپس ، دومی آزمایش را انجام می دهد و داده هایی را جمع آوری می کند که بعدا توسط مهندس آنالیز می شود و برای ساختن الگویی از سیستم مورد علاقه استفاده می شود. سرانجام ، مهندس کنترلر را برای مدل ایجاد می کند و دستگاه این کنترلر را پیاده سازی می کند.
نتایج آزمایش نوسان کنترل در فضای فاز تعریف شده توسط یک جزء اصلی اصلی. اولین طرح از بالا نقشه ورودی به سلول فعال شده با گذشت زمان است. نقشه دوم از بالا نقشه ای از سنبله های کل شبکه است که در آن رنگهای مختلف با سلولهای مختلف مطابقت دارد. طرح سوم از بالا با پتانسیل غشای هر سلول در طول زمان مطابقت دارد. چهارم از طرح بالا نوسانات هدف را نشان می دهد. نمودار پایین نوسان مشاهده شده را نشان می دهد. این سیاست علی رغم ارائه ورودی فقط به یک سلول واحد ، قادر است تقریباً نوسانات هدف را در فضای فاز مشاهده شده القا کند. اعتبار: میچل و پتزولد
"این جریان کار پیشرفت های اخیر در کنترل مستقل از مدل (به عنوان مثال AlphaGo AlphaGo صفر)، که می تواند طراحی کنترل کارآمد تر را نادیده می گیرد،" میچل گفت فناوری XPLORE . "در یک چارچوب عاری از مدل ، مراحل b ، c و d در یک مرحله واحد ترکیب می شوند و هیچ مدل مشخصی ساخته نمی شود. بلکه سیستم عاری از مدل بارها با سیستم عصبی در تعامل است و با گذشت زمان می آموزد که به مطلوب برسد. هدف ما می خواستیم این شکاف را پر کنیم تا ببینیم از کنترل بدون مدل می توان برای حل سریع مشکلات جدید در کنترل عصبی استفاده کرد. "
محققان یک روش یادگیری تقویتی بدون مدل به نام "گرادیان سیاست قطعی عمیق" (DDPG) را تطبیق داده و از آن برای مدل های پویایی عصبی سطح پایین و سطح بالا استفاده کردند. آنها به طور خاص DDPG را انتخاب کردند زیرا چهارچوبی بسیار انعطاف پذیر را ارائه می دهد ، که به کاربر نیازی ندارد که دینامیک سیستم را مدل کند.
تحقیقات اخیر نشان داده است که روشهای عاری از مدل معمولاً به آزمایش بیش از حد با محیط احتیاج دارند و استفاده از آنها را برای مشکلات عملی تر سخت تر می کند. با این وجود ، محققان دریافتند که روش بدون مدل آنها عملکرد بهتری نسبت به روشهای مبتنی بر مدل دارد و قادر به حل مشکلات پویایی عصبی دشوارتر ، مانند کنترل مسیرها از طریق فضای فاز نهفته از شبکه تحت عمل نورونها است.
http://socialmediainuk.com/story5569771/قیمت-اکچویتور