این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
سه شنبه 4 آذر 1404
پردازش علائم و داده ها
، جلد ۲۰، شماره ۴، صفحات ۱۴۱-۱۶۰
عنوان فارسی
انتقال دانش تنظیم شده برای یادگیری تقویتی چندعاملی
چکیده فارسی مقاله
یادگیری تقویتی به آموزش مدلهای یادگیری ماشین برای اتخاذ تصمیمات متوالی اشاره میکند که در آن یک عامل از طریق تعامل با محیط، آموزش دیده، نتایج این تعامل را مشاهده کرده و بر این اساس، پاداش
مثبت یا منفی دریافت میکند.
یادگیری تقویتی کاربردهای زیادی برای سیستمهای چند عاملی به خصوص در محیطهای پویا و ناشناخته دارد. با این حال، اکثر الگوریتمهای یادگیری تقویتی چند عاملی با مشکلاتی همچون پیچیدگی محاسباتی نمایی برای محاسبه فضای حالت مشترک مواجه هستند که منجر به عدم مقیاسپذیری الگوریتمها درمسائل چند عاملی واقعی میشود. کاربردهای یادگیری تقویتی چند عاملی را میتوان از فوتبال ربات
ها
، شبکهها، محاسبات ابری، زمانبندی شغل تا اعزام نیروی واکنشی دستهبندی کرد. در این مقاله یک الگوریتم جدید به نام انتقال دانش تنظیمشده برای یادگیری تقویتی چند عاملی (
RKT-MARL
) معرفی میشود که براساس مدل تصمیمگیری مارکوف کار میکند. این الگوریتم برخلاف روشهای یادگیری تقویتی سنتی، مفاهیم تعاملات پراکنده و انتقال دانش را برای رسیدن به تعادل بین عاملها استفاده میکند. علاوه بر این،
RKT-MARL
از مکانیزم مذاکره برای یافتن مجموعه تعادل و از روش حداقل واریانس برای انتخاب بهترین عمل در مجموعه تعادل به دست آمده استفاده میکند. همچنین الگوریتم پیشنهادی، دانش مقادیر حالت-عمل را در میان عاملهای مختلف انتقال میدهد. از طرفی، الگوریتم
RKT-MARL
مقادیر
Q
را در حالتهای هماهنگی به عنوان ضریبی از اطلاعات محیطی جاری و دانش قبلی مقداردهی میکند.
به منظور ارزیابی عملکرد روش پیشنهادی، یک گروه از آزمایشات بر روی پنج بازی جهانی انجامشده و نتایج حاصل بیانگر همگرایی سریع و مقیاسپذیری بالا در
RKT-MARL
است
.
کلیدواژههای فارسی مقاله
یادگیری تقویتی چند عاملی، انتقال دانش، تعادلهای متا و نش، تنظیمپذیری، تعاملات پراکنده، مذاکره بین عاملها.
عنوان انگلیسی
Regularized Knowledge Transfer for Multi-Agent Reinforcement Learning
چکیده انگلیسی مقاله
Reinforcement learning (RL) refers to the training of machine learning models to make a sequence of decisions on which an agent learns by interacting with its environment, observing the results of interactions and receiving a positive or negative reward, accordingly. RL has many applications for multi-agent systems, especially in dynamic and unknown environments. However, most multi-agent reinforcement learning (MARL) algorithms suffer from some problems specifically the exponential computational complexity to calculate the joint state-action space, which leads to the lack of scalability of algorithms in realistic multi-agent problems.
Applications of MARL
can be categorized
from robot soccer,
networks, cloud computing, job scheduling,
and to optimal reactive power dispatch.
In the area of reinforcement learning algorithms, there are serious challenges such as the lack of application of equilibrium-based algorithms in practice and high computational complexity to find equilibrium. On the other hand, since agents have no concept of equilibrium policies,
they tend to act aggressively toward their
goals, which it results the high probability of collisions.
Consequently, in this paper, a novel algorithm called Regularized Knowledge Transfer for Multi-Agent Reinforcement Learning (RKT-MARL) is presented that relies on Markov decision process (MDP) model. RKT-MARL unlike the traditional reinforcement learning methods exploits the sparse interactions and knowledge transfer to achieve an equilibrium across agents. Moreover, RKT-MARL benefits from negotiation to find the equilibrium set. RKT-MARL uses the minimum variance method to select the best action in the equilibrium set, and transfers the knowledge of state-action values across various agents.
Also, RKT-MARL initializes the Q
-
values in coordinate states as coefficients of current environmental information and previous knowledge. In order to evaluate the performance of our proposed method, groups of experiments are conducted on five grid world games and the results show the fast convergence and high scalability of RKT-MARL. Therefore, the fast convergence of our proposed method indicates that the agents quickly solve the problem of reinforcement learning and approach to their goal.
کلیدواژههای انگلیسی مقاله
Multi-agent reinforcement learning, Knowledge transfer, Meta and Nash equilibriums, Regularization, Sparse interactions, Agents negotiations.
نویسندگان مقاله
نیلوفر علوی | Niloofar Alavi
Urmia University of Technology
دانشگاه صنعتی ارومیه
جعفر طهمورث نژاد | Jafar Tahmoresnezhad
Urmia University of Technology
دانشگاه صنعتی ارومیه
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1493-4&slc_lang=fa&sid=1
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش دادههای رقمی
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات