Грант РНФ 22-21-00711
Захват, отслеживание и распознавание социальных дилемм «умного города»
на основе технологий мультиагентного обучения с подкреплением.
Аннотация проекта
Социальные дилеммы вызывают большой интерес в исследовании мультиагентных систем с целью изучения появления кооперативного поведения среди эгоистичных агентов. Городская транспортная система по своей сути является мультиагентной системой, в которой агенты – это транспортные средства и пешеходы.

Наиболее типичная социальная дилемма, возникающая в транспортных потоках – выбор стратегии поведения агента, который может быть основан как на краткосрочных эгоистических интересах (уменьшение личного времени передвижения), так и на коллективных интересах. Особый интерес эта задача представляет в рамках «умного города», в котором может быть большое число беспилотных транспортных средств, способных реализовывать коллективные стратегии поведения.

Одним из современных подходов в методах глубокого машинного обучения с подкреплением является использование внутренней мотивации агента, которая как раз может иметь социальный характер. Модели дорожного движения при этом являются весьма актуальным плацдармом для обучения этих моделей.

В рамках проекта предполагается решение трех задач:
  • разработка новой математической (компьютерной) мультиагентной модели транспортных потоков с учетом движения пешеходов и внутренней мотивации агентов (транспортных средств и пешеходов), принимающих решения, исходя из некоторых социальных правил;
  • исследование поведения агентов в системе «транспортные средства – пешеходы» для различного типа транспортных средств (традиционные, управляемые человеком и беспилотные) в разных ситуациях, обоснование критериев и правил принятия решений и выработка рекомендаций по улучшению показателей движения в различных случаях с использованием методов глубокого машинного обучения с подкреплением;
  • исследование поведение агентов в смешанной системе «традиционные транспортные средства – беспилотные транспортные средства» в различных ситуациях, анализ влияния правил их поведения, правил принятия решений и соотношения транспортных средств различных типов на достижение индивидуальных и коллективных показателей с использованием методов глубокого машинного обучения с подкреплением.
Основные научные результаты проекта
Метод решения социальных дилемм на основе репутации и глубокого мультиагентного обучения с подкреплением
  • Предложен метод решения социальных дилемм, основанный на глубоком многоагентном обучении с подкреплением. Отличие метода от известных аналогов основано на использовании репутации агента как части функции награды. Репутация, в свою очередь, зависит от степени сотрудничества агента с другими агентами. Программная реализация метода выполнена на языке Python с использованием открытой библиотеки PyTorch. Эффективность метода оценивалась на основе сравнения с методами решения социальных дилемм без учета кооперации агентов.
Модели совместного движения беспилотных и традиционных (управляемых человеком) транспортных средств, основанные на подходе клеточных автоматов
Разработаны модели, позволяющие исследовать моделировать движение разнородных транспортных средств по многополосным дорогам. В основу легли традиционные модели движения транспортных средств, управляемых человеком: модель Вольфрама, модель Вольфа, модель Нагеля-Шрекенберга и улучшенная модель S-NFS.
Для добавления беспилотных транспортных средств в модели вводились две модификации, учитывающие особенности движения такого типа средств:
  • первая модификация состоит в отсутствии эффектов случайного торможения, которые вводятся в модели для придания ей реалистичности в части сложной предсказуемости поведения конкретного водителя. Для беспилотных автомобильных транспортных средств такое допущение вводить нет необходимости, поскольку время реакции автоматики значительно превышает характерные времена в процессе движения, а поведение транспортного средство жестко алгоритмизировано;
  • вторая модификация заключается в учете возможности группы беспилотных транспортных средств образовывать кластеры — согласованно движущиеся друг за другом колонны из беспилотных автомобилей, которые обмениваются друг с другом информацией. На моделях проведено численное исследование влияния внедрения беспилотных автомобилей в поток, которое показывает эффективность такого внедрения.
Социальные дилеммы среди пассажиров гетерогенной транспортной системы, состоящей из личных транспортных средств и автобусов
Перестроение между полосами описывается классическим правилом, состоящим из стимулирующего критерия и критерия безопасности. Было обнаружено, что:
  • в ситуации выбора между автобусом и личным транспортным средством при высоких плотностях транспортных средств возникает дилемма заключенного (Prisoner's dilemma);
  • в случае, если у автобусов есть выделенная полоса для движения, возникает дилемма труса (Chicken dilemma).
Для идентификации социальных дилемм использован показатель, недавно введенный в литературе под названием «дефицит социальной эффективности». Это разница между социальной функцией в точке максимума (Парето-оптимальное решение) и в точке, соответствующей равновесию Нэша. По величине дефицита можно судить о наличии и силе социальной дилеммы в конкретной ситуации распределения пассажиров по видам транспортных средств.
Особенность решения задачи состоит в том, что агентами являются пассажиры, а не транспортные средства, как это принято при анализе социальных дилемм.
Для описания движения транспортных средств в полосе используется модель Нагеля-Шрекенберга. Результаты получены путем компьютерного моделирования.
Иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских процессах принятия решений
Разработан иерархический метод кооперативного мультиагентного обучения с подкреплением в марковских
процессах принятия решений на языке программирования Python с библиотекой глубокого обучения PyTorch. Метод позволяет множеству агентов эффективно обучаться в сложных средах с редкими вознаграждениями и использует принцип многоуровневого иерархического обучения с обнаружением промежуточных целей и принцип воспроизведения ретроспективного опыта.
В качестве аргументов функции награды мультиагентного обучения рассмотрены критерии безопасности на примере критериев, соответствующих различным аномалиям сетевого трафика между беспилотными транспортными средствами и инфраструктурой «умного города».

Модель клеточных автоматов движения пешеходов на прямоугольной сетке, основанная на вероятностных правилах обновления
Разработана модель клеточных автоматов, которая отражает все значимые особенности поведения пешеходов, присущие движению в толпе. Параметры, необходимые для вычисления вероятностей, вычисляются исходя из потребных макро-характеристик движения толпы в различных ситуациях.
Для такой модели возможно подобрать все свободные коэффициенты и параметры, исходя из требований как к характеристикам пешеходного потока, так и к индивидуальным характеристикам пешеходов. Все свободные параметры представляют собой рациональные числа.
Сама задача подбора свободных параметров может быть представлена как задача оптимизации функции нескольких переменных и может быть решена любым подходящим алгоритмом оптимизации.

Контакты
МГТУ им. Н. Э. Баумана
Москва, Госпитальный переулок, 10
Телефон: +7 495 263-64-51
Email: hello@inteltransys.ru