1 Citação (Scopus)

Resumo

In this paper we propose a novel distributed gradient-based two-time-scale algorithm for multi-agent off-policy learning of linear approximation of the optimal action-value function (Q-function) in Markov decision processes (MDPs). The algorithm is composed of: 1) local parameter updates based on an off-policy gradient temporal difference learning algorithm with target policy belonging to either the greedy or the Gibbs distribution class and stationary behavior policies possibly different for each agent, and 2) a linear stochastic time-varying consensus scheme. It is proved, under general assumptions, that the parameter estimates generated by the proposed algorithm weakly converge to a bounded invariant set of the corresponding ordinary differential equation (ODE). Simulation results illustrate effectiveness of the proposed algorithm.

Idioma originalInglês
Título da publicação do anfitriãoECC
EditoraInstitute of Electrical and Electronics Engineers Inc.
Páginas2500-2505
Número de páginas6
ISBN (eletrónico)9783907144107
DOIs
Estado da publicaçãoPublicadas - 25 jun. 2024
Evento2024 European Control Conference, ECC 2024 - Stockholm
Duração: 25 jun. 202428 jun. 2024

Série de publicação

Nome2024 European Control Conference (ECC)

Conferência

Conferência2024 European Control Conference, ECC 2024
País/TerritórioSweden
CidadeStockholm
Período25/06/2428/06/24

Nota bibliográfica

Publisher Copyright:
© 2024 EUCA.

Financiamento

Financiadoras/-esNúmero do financiador
Science Fund of the Republic of Serbia7502
Fundação para a Ciência e a Tecnologia2022.07530, UIDB/04111/2020

    Impressão digital

    Mergulhe nos tópicos de investigação de “Distributed Multi-Agent Gradient Based Q-Learning with Linear Function Approximation“. Em conjunto formam uma impressão digital única.

    Citar isto