Модификация алгоритма DDQN+PER в задачах обучения с подкреплением

Р. Ф. Хакимов

Информационные технологии интеллектуальной поддержки принятия решений, Информационные технологии интеллектуальной поддержки принятия решений 2020

Р. Ф. Хакимов

Изменена: 2020-10-09

Аннотация

В статье рассмотрен метод машинного обучения с подкреплением Deep Q-Network (DQN), а также его модификации - Double Deep Q-Network (DDQN) и Prioritized Experience Replay (PER), приведены результаты анализа данных методов на примере задач машинного обучения с подкреплением OpenAI Gym.

Ключевые слова

машинное обучение; естественный язык; интеллектуальный анализ; обработка текстов; нейронные сети

Литература

1. Sutton,R.&Barto,A.ReinforcementLearning:AnIntroduction // MITPress,1998

2. Hado van Hasselt, Arthur Guez, David Silver, Deep Reinforcement Learning with Double Q-learning , -2015. – URL: https://arxiv.org/abs/1509.06461 (дата обращения 04.11.2019)

3. Tom Schaul, John Quan, Ioannis Antonoglou, David Silver, Prioritized Experience Replay – 2015 – URL: https://arxiv.org/abs/1511.05952 (дата обращения 05.11.2019)

4. Moore, Andrew W and Atkeson, Christopher G. Prioritized sweeping: Reinforcement learning withless data and less time.Machine Learning – 1993 - https://doi.org/10.1007/BF00993104 (дата обращения 05.11.2019)

5. Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, Wojciech Zaremba, OpenAI Gym – 2016 – URL: https://arxiv.org/pdf/1606.01540.pdf (дата обращения 05.11.2019)

Полный текст: PDF