Saltar para o conteúdo

Q-learning

Origem: Wikipédia, a enciclopédia livre.

Q-learning é um algoritmo de aprendizagem por reforço que treina um agente para atribuir valores às suas possíveis ações com base em seu estado atual, sem exigir um modelo do ambiente (sem modelo). Ele pode lidar com problemas com transições estocásticas e recompensas sem exigir adaptações.[1]

Para qualquer processo de decisão de Markov finito, o Q-learning encontra uma política ótima no sentido de maximizar o valor esperado da recompensa total em todas e quaisquer etapas sucessivas, começando pelo estado atual.[2] O Q-learning pode identificar uma política de seleção de ação ótima para qualquer processo de decisão de Markov finito, dado um tempo de exploração infinito e uma política parcialmente aleatória.[2]

“Q” refere-se à função que o algoritmo calcula: a recompensa esperada — isto é, a qualidade — de uma ação realizada em um determinado estado.[3]

Referências

  1. Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control First ed. Springer Verlag, Singapore: [s.n.] pp. 1–460. ISBN 978-9-811-97783-1. doi:10.1007/978-981-19-7784-8 
  2. a b Melo, Francisco S. «Convergence of Q-learning: a simple proof» (PDF) 
  3. Matiisen, Tambet (19 de dezembro de 2015). «Demystifying Deep Reinforcement Learning». neuro.cs.ut.ee (em inglês). Computational Neuroscience Lab. Consultado em 6 de abril de 2018 
Ícone de esboço Este artigo sobre computação é um esboço. Você pode ajudar a Wikipédia expandindo-o.