Поиск :
- Новые поступления
- Поиск
- Поиск одной строкой
- Помощь
- Книги по отраслям
- Книги 2022
- Книги 2023
- Книги 2024
- Ретрофонд
- Статьи из информационных обзоров за 2023
- Статьи из информационных обзоров за 2024
- Авторы
- Издательства
- Серии
- Ключевые слова
- Дерево рубрик
- Статистика поисков
- Статистика справок
Разделы фонда
Справочники
Личный кабинет :
Электронный каталог: Станкевич, Л.А. - Планирование движения роботов в социальной среде через обучение с подкреплением
Станкевич, Л.А. - Планирование движения роботов в социальной среде через обучение с подкреплением
Нет экз.
Статья
Автор: Станкевич, Л.А.
Мехатроника, автоматизация, управление: Планирование движения роботов в социальной среде через обучение с подкреплением
б.г.
ISBN отсутствует
Автор: Станкевич, Л.А.
Мехатроника, автоматизация, управление: Планирование движения роботов в социальной среде через обучение с подкреплением
б.г.
ISBN отсутствует
Статья
Станкевич, Л.А.
Планирование движения роботов в социальной среде через обучение с подкреплением / Л.А. Станкевич, А.А. Ларионов // Мехатроника, автоматизация, управление. – 2024. – № 10. – С. 520-529: ил. - Библиогр.: 20 назв.
Проблема управления движением роботов в социальной среде в местах скопления людей. Разработан и исследован алгоритм планирования движения мобильных роботов среди неподвижных и движущихся препятствий на основе обучения с подкреплением. В качестве прототипа выбран алгоритм GA3C-CADRL, в котором робот и препятствия рассматриваются как взаимодействующие агенты. Алгоритм был модифицирован и реализован с использованием рекуррентной нейронной сети LSTM для аппроксимации одновременно функции ценности и политики. Нейронная сеть обучалась на общем наборе данных, полученном путем обучения с подкреплением типа "актер—критик". Дополнительно разработаны компоненты rl_ planner и social_msgs для интегрирования предварительно обученного алгоритма планирования в систему управления роботом на программной платформе Robot Operating System 2. Первый компонент реализует обработку входных данных, вычисление действия робота и формирование требуемой скорости движения, а второй содержит сообщения с информацией о соседних агентах. Для тестирования алгоритма проведены эксперименты с тремя различными сценариями: со статическими препятствиями, смешанный, с динамическими агентами. Число эпизодов для обучения алгоритма при пяти агентах достигало 1500000. Моделирование движения робота на двух гусеницах в среде Gazebo показало, что в условиях статических препятствий робот достигает цели за наименьшее время. В присутствии динамических препятствий время увеличивалось в два раза по причине уклонения от столкновений. При этом расстояние до ближайшего агента оставалось безопасным (более 2 м).
Ключевые слова = РОБОТОТЕХНИКА
Ключевые слова = СОЦИАЛЬНАЯ СРЕДА
Ключевые слова РП = планирование движений
Ключевые слова РП = сеть нейронная рекурентная
Ключевые слова РП = робот мобильный
Станкевич, Л.А.
Планирование движения роботов в социальной среде через обучение с подкреплением / Л.А. Станкевич, А.А. Ларионов // Мехатроника, автоматизация, управление. – 2024. – № 10. – С. 520-529: ил. - Библиогр.: 20 назв.
Проблема управления движением роботов в социальной среде в местах скопления людей. Разработан и исследован алгоритм планирования движения мобильных роботов среди неподвижных и движущихся препятствий на основе обучения с подкреплением. В качестве прототипа выбран алгоритм GA3C-CADRL, в котором робот и препятствия рассматриваются как взаимодействующие агенты. Алгоритм был модифицирован и реализован с использованием рекуррентной нейронной сети LSTM для аппроксимации одновременно функции ценности и политики. Нейронная сеть обучалась на общем наборе данных, полученном путем обучения с подкреплением типа "актер—критик". Дополнительно разработаны компоненты rl_ planner и social_msgs для интегрирования предварительно обученного алгоритма планирования в систему управления роботом на программной платформе Robot Operating System 2. Первый компонент реализует обработку входных данных, вычисление действия робота и формирование требуемой скорости движения, а второй содержит сообщения с информацией о соседних агентах. Для тестирования алгоритма проведены эксперименты с тремя различными сценариями: со статическими препятствиями, смешанный, с динамическими агентами. Число эпизодов для обучения алгоритма при пяти агентах достигало 1500000. Моделирование движения робота на двух гусеницах в среде Gazebo показало, что в условиях статических препятствий робот достигает цели за наименьшее время. В присутствии динамических препятствий время увеличивалось в два раза по причине уклонения от столкновений. При этом расстояние до ближайшего агента оставалось безопасным (более 2 м).
Ключевые слова = РОБОТОТЕХНИКА
Ключевые слова = СОЦИАЛЬНАЯ СРЕДА
Ключевые слова РП = планирование движений
Ключевые слова РП = сеть нейронная рекурентная
Ключевые слова РП = робот мобильный