این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
مجله علوم اعصاب شفای خاتم، جلد ۹، شماره ۴، صفحات ۵۱-۵۹

عنوان فارسی توسعۀ الگوریتم یادگیری تقویتی برای مدل کردن اثر ایمای پاولفی روی برنامه‌ریزی دوجهته
چکیده فارسی مقاله مقدمه: فرآیند تصمیم‌گیری در مغز انسان توسط دو سازوکار یادگیری پاولفی و ابزاری کنترل می‌شود. یادگیری پاولفی با آموختن پیوند محرک- نتیجه به یادگیری منجر می‌شود بدون آن‌که به عمل انتخابی وابسته باشد. همچنین این یادگیری به‌ صورت تمایل به نزدیک شدن به محرک‌های نوید دهندۀ پاداش ظاهر می‌شود. اما کنترلر ابزاری به ‌دنبال یادگیری پیوند عمل- نتیجه است. البته یادگیری ابزاری تنها به نتیجۀ عمل کنونی بسنده نکرده، و ممکن است به ‌صورت یک برنامه‌ریزی رو به‌ جلو دنباله‌ای از عمل‌ها را ارزیابی کند. از طرفی، برنامه‌ریزی رو به ‌جلو ممکن است تنها فرآیند برنامه‌ریزی‌ای نباشد که یادگیری ابزاری از آن استفاده می‌کند. ممکن است انسان‌ها از برنامه‌ریزی روبه‌عقب نیز به ‌منظور ارزیابی توالی عمل‌ها بهره برند. با این وجود برنامه‌ریزی روبه‌عقب کمتر تاکنون مورد توجه قرار گرفته است. پژوهش‌های پیشین نشان دادند با وجود مستقل بودن یادگیری پاولفی و ابزاری، آن‌ها با یکدیگر تعامل ‌می‌کنند. در حقیقت یادگیری پاولفی نزدیک شوندگی روی برنامه‌ریزی رو به ‌جلو تأثیر گذاشته و منجر به اتخاذ تصمیماتی می‌شود که ممکن است از نظر کنترلر ابزاری بهینه‌ نباشند. اما تأثیر یادگیری پاولفی روی برنامه‌ریزی رو‌به‌عقب هنوز مطالعه نشده است. مواد و روش‌ها: در این مقاله، ما یک آزمایش مسیریابی طراحی کردیم که امکان برنامه‌ریزی‌های رو به ‌جلو، رو به ‌عقب، و دوجهته در آن فراهم است، و ایماهای پاولفی نزدیک ‌شوندگی را نیز در نقشه‌ها تعبیه نمودیم. یافته‌ها: تحلیل آماری داده‌های جمع‌آوری شده نه تنها از وجود برنامه‌ریزی رو به ‌عقب حکایت می‌کنند، بلکه نشان ‌می‌دهند که ایمای پاولفی نزدیک ‌شوندگی بر روی سه برنامه‌ریزی تاثیر می‌گذارد، هر چند که این تأثیر در برنامه‌ریزی دوجهته بیش‌تر از روبه‌جلو، و در روبه‌جلو بیش‌تر از روبه‌عقب است. همچنین در بستر یادگیری تقویتی، الگوریتم برنامه‌ریزی دوجهته را تحت بایاس پاولفی توسعه دادیم. نتیجه‌گیری: نتایج شبیه‌سازی با نتایج برآمده از آزمایش سازگار بوده و بیان می‌کنند که تأثیر بایاس پاولفی را می‌توان به ‌نوعی در قالب هرس درختان تصمیم مدل‌سازی نمود.
کلیدواژه‌های فارسی مقاله تصمیم‌گیری، برنامه‌ریزی راهبردی، یادگیری ابزاری، مدل‌سازی کامپیوتری

عنوان انگلیسی Developing a Reinforcement Learning Algorithm to Model Pavlovian Approach Bias on Bidirectional Planning
چکیده انگلیسی مقاله Introduction: The decision- making process in the human brain is controlled by two mechanisms: Pavlovian and instrumental learning systems. The Pavlovian system learns the stimulus- outcome association independent of action; a process that manifests itself in the tendency to approach reward- associated stimuli. The instrumental controller, on the other hand, learns the action- outcome association. Instrumental learning is not limited to the current action's outcome and may evaluate a sequence of future actions in the form of forward planning. Nonetheless, forward planning may not be the only planning process used by instrumental learning. Humans may also use backward planning to evaluate actions sequences. However, backward planning has received less attention so far. Previous research has shown that despite the independence of Pavlovian and instrumental learning, they interact with each other such that the Pavlovian approach tendency biases forward planning, causing it to make decisions that may not be optimal actions from the instrumental learning perspective. Nevertheless, the effect of Pavlovian learning on backward planning has not yet been studied. Materials and Methods: This paper designs a navigation experiment that allows investigating forward, backward, and bidirectional planning. Moreover, we embed Pavlovian approach cues into the maps to investigate how they bias the three forms of planning. Results: Statistical analysis of the collected data indicates the existence of backward planning and shows that the Pavlovian- approach cues bias the planning. This bias is stronger in forward planning compared to backward planning and is even stronger in bidirectional planning. In the context of reinforcement learning, we developed a bidirectional planning algorithm under the Pavlovian approach tendency. Conclusion: The simulation results are consistent with the experimental results and indicate that the effect of Pavlovian bias can be modeled as pruning of decision trees.
کلیدواژه‌های انگلیسی مقاله Decision Making, Strategic Planning, Conditioning, Operant, Computer Simulation

نویسندگان مقاله رضا کاکویی | Reza Kakooee
Department of Control, Faculty of Electrical and Computer Engineering, Tarbiat Modares University, Tehran, Iran
گروه کنترل، دانشکده برق و کامپیوتر، دانشگاه تربیت مدرس، تهران، ایران

محمد تقی حمیدی بهشتی | Mohammad Taghi Hamidi Beheshti
Department of Control, Faculty of Electrical and Computer Engineering, Tarbiat Modares University, Tehran, Iran
گروه کنترل، دانشکده برق و کامپیوتر، دانشگاه تربیت مدرس، تهران، ایران

مهدی کرامتی | Mehdi Keramati
Department of Psychology, School of Social Sciences and Arts, University of London, London, England
گروه روانشناسی، دانشکده علوم اجتماعی و هنر، دانشگاه لندن، لندن، انگلستان


نشانی اینترنتی http://shefayekhatam.ir/browse.php?a_code=A-10-869-1&slc_lang=fa&sid=1
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده علوم اعصاب شناختی
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات