Tutti gli algoritmi reinforcement learning di cui ho letto si applicano in genere a un singolo agente con un numero fisso di azioni. Esistono algoritmi di apprendimento di rinforzo per prendere una decisione tenendo conto di un numero variabile di azioni? Ad esempio, come applicheresti un algoritmo RL in un gioco per computer in cui un giocatore controlla N soldati, e ogni soldato ha un numero casuale di azioni basate sulla sua condizione? Non è possibile formulare un numero fisso di azioni per un decisore globale (ad esempio "il generale") perché le azioni disponibili cambiano continuamente mentre i soldati vengono creati e uccisi. E non puoi formulare un numero fisso di azioni a livello di soldato, poiché le azioni del soldato sono condizionate in base al suo ambiente immediato. Se un soldato non vede avversari, allora potrebbe solo essere in grado di camminare, mentre se vede 10 avversari, allora ha 10 nuove azioni possibili, attaccando 1 dei 10 avversari.Apprendimento rinforzo con azioni variabili
risposta
Quello che descrivi non è niente di insolito. L'apprendimento del rinforzo è un modo per trovare la funzione valore di un Markov Decision Process. In un MDP, ogni stato ha il proprio insieme di azioni. Per procedere con l'applicazione di apprendimento di rinforzo, è necessario definire chiaramente quali stati, azioni e vantaggi sono nel tuo problema.
Se si dispone di un numero di azioni per ciascun soldato che sono disponibili o meno in base a determinate condizioni, è comunque possibile modellarlo come selezione da un insieme fisso di azioni. Per esempio:
- creare un "valore d'uso" per ciascuno dei set completo di azioni per ogni soldato
- scegliere la massima azione di valore, ignorando quelle azioni che non sono disponibili in un dato momento
Se si dispone di più destinazioni possibili, si applica lo stesso principio, eccetto che questa volta si modella la funzione di utilità in modo che assuma la designazione di destinazione come parametro aggiuntivo ed esegua la funzione di valutazione più volte (una per ciascun target). Scegli il bersaglio che ha la più alta "utilità di attacco".
- 1. Apprendimento di rinforzo profondo e apprendimento di rinforzo
- 2. Apprendimento supervisionato, (ii) Apprendimento non supervisionato, (iii) Rinforzo Impara
- 3. Esistono concorsi di apprendimento per rinforzo attivo?
- 4. Libreria di apprendimento per rinforzo in C++
- 5. Formazione di una rete neurale con apprendimento di rinforzo
- 6. Il calcolo evolutivo può essere un metodo di apprendimento di rinforzo?
- 7. apprendimento OO con PHP
- 8. Apprendimento automatico di base
- 9. Apprendimento .prototype
- 10. HTML con più "azioni"
- 11. Apprendimento NSBlockOperation
- 12. Azioni controller thread-safe Rails - impostazione delle variabili di istanza?
- 13. Apprendimento del parser in python
- 14. apprendimento e "canto" Ruby con Sinatra
- 15. Come utilizzare le variabili di shell nelle azioni Makefile?
- 16. Apprendimento dai pacchetti Haskell
- 17. Go risorse di apprendimento
- 18. Apprendimento Apache Ofbiz?
- 19. Barra azioni Sherlock con bottoni
- 20. Apprendimento C++ senza IDE
- 21. Suggerimenti di apprendimento automatico
- 22. Apprendimento C++ giusto?
- 23. Apprendimento stile percorso Ant
- 24. Come utilizzare Tensorflow Optimizer senza ricalcolare le attivazioni nel programma di apprendimento di rinforzo che restituisce il controllo dopo ogni iterazione?
- 25. Apprendimento C: raccomandazione corso video
- 26. Algoritmi del grafico di apprendimento
- 27. Apprendimento newbie Ajax (PHP JQuery)
- 28. Apprendimento automatico: Backpropagation senza supervisione
- 29. Apprendimento C# come programmatore VB.NET
- 30. Inserimento apprendimento Ordina in Ruby
Come ho già detto, anche i soldati hanno un numero variabile di azioni. Cosa intendi con il fatto che l'obiettivo target sia un parametro? – Cerin
Intendo: rendere l'algoritmo RL prendere alcune informazioni sul target o sull'azione specifica che si sta considerando come input aggiuntivo. Quindi puoi applicarlo a più bersagli e/o azioni secondo necessità. È sufficiente rieseguire l'algoritmo con informazioni di destinazione e/o azione diverse per ciascuna di esse. – mikera