این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
چهارشنبه 12 آذر 1404
پردازش علائم و داده ها
، جلد ۲۰، شماره ۴، صفحات ۱۲۹-۱۴۰
عنوان فارسی
بیشینه سازی امتیاز در بازی تصادفی match-۳ با استفاده از یادگیری تقویتی عمیق
چکیده فارسی مقاله
بازیهای رایانهای در سالهای اخیر نقش مهمی در پیشرفت هوش مصنوعی داشتهاند. بازیها به عنوان محیطی مناسب برای آزمون و خطا، آزمایش ایدهها و الگوریتمهای مختلف هوش مصنوعی مورد استفاده قرار گرفتهاند. بازی
match-3
یک سبک از بازیهای محبوب در تلفنهای همراه است که از فضای حالت تصادفی و بسیار بزرگ تشکیل شده که عمل یادگیری در آن را دشوار میکند. در این مقاله یک عامل هوشمند مبتنی بر یادگیری تقویتی عمیق ارائه میشود که هدف آن بیشینهسازی امتیاز در بازی
match-3
است. در تعریف عامل پیشنهادی از نگاشت فضای عمل، حالت و همچنین ساختار شبکه عصبی مبتکرانهای برای محیط بازی
match-3
استفاده میشود که توانایی یادگیری حالتهای زیاد را داشته باشد. مقایسه روش پیشنهادی با سایر روشهای موجود از جمله روش یادگیری تقویتی مبتنی بر سیاست، روش یادگیری تقویتی مبتنی بر ارزش، روشهای حریصانه و عامل انسانی نشان از عملکرد برتر روش پیشنهادی در بازی
match-3
دارد.
کلیدواژههای فارسی مقاله
یادگیری تقویتی عمیق، بازی تصادفی، match-3، فضای حالت بزرگ
عنوان انگلیسی
Maximize Score in stochastic match-3 games using reinforcement learning
چکیده انگلیسی مقاله
Computer games have played an important role in the development of artificial intelligence in recent years. Throughout the history of artificial intelligence, computer games have been a suitable test environment for evaluating new approaches and algorithms to artificial intelligence. Different methods, including rule-based methods, tree search methods, and machine learning methods (supervised learning and reinforcement learning) have been developed to create intelligent agents in different games. Games have been used as a suitable environment for trial and error, testing different artificial intelligence ideas and algorithms. Among these researches, we can mention the research of Deep Blue in the game chess and AlphaGo in the game Go. AlphaGo is the first computer program to defeat an expert human Go player. Also, Deep Blue is a chess-playing expert system is the first computer program to win a match, against a world champion.
In this paper, we focus on the match-3 game. The match-3 game is a popular game in cell phones, which consists of a very large random state space that makes learning difficult. It also has random reward function which makes learning unstable. Many researches have been done in the past on different games, including match-3. The aim of these researches has generally been to play optimally or to predict the difficulty of stages designed for human players. Predicting the difficulty of stages helps game developers to improve the quality of their games and provide a better experience for users. Based on the approach used, past works can be divided into three main categories including search-based methods, machine learning methods and heuristic methods.
In this paper, an intelligent agent based on deep reinforcement learning is presented, whose goal is to maximize the score in the match-3 game. Reinforcement learning is one of the approaches that has received a lot of attention recently. Reinforcement learning is one of the branches of machine learning in which the agent learns the optimal policy for choosing actions in different spaces through its experiences of interacting with the environment. In deep reinforcement learning, reinforcement learning algorithms are used along with deep neural networks.
In the proposed method, different mapping mechanisms for action space and state space are used. Also, a novel structure of neural network for the match-3 game environment has been proposed to achieve the ability to learn large state space. The contributions of this article can be summarized as follow. An approach for mapping the action space to a two-dimensional matrix is presented in which it is possible to easily separate valid and invalid actions
.
An approach has been designed to map the state space to the input of the deep neural network, which reduces the input space by reducing the depth of the convolutional filter and thus improves the learning process
.
The reward function has made the learning process stable by separating random rewards from deterministic rewards.
The comparison of the proposed method with other existing methods, including PPO, DQN, A3C, greedy method and human agents shows the superior performance of the proposed method in the match-3 game
کلیدواژههای انگلیسی مقاله
deep reinforcement learning, random game, match-3, large state space
نویسندگان مقاله
مهدی رعایائی اردکانی | Mehdy Roayaei Ardakany
Tarbiat Modares University
دانشگاه تربیت مدرس
علی افروغه | Ali Afroughrh
Tarbiat Modares University
دانشگاه تربیت مدرس
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1930-1&slc_lang=fa&sid=1
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش دادههای رقمی
نوع مقاله منتشر شده
کاربردی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات