G - Physics – 06 – F
Patent
G - Physics
06
F
G06F 15/18 (2006.01) G05B 13/02 (2006.01) G05B 13/04 (2006.01)
Patent
CA 2303874
The invention provides a novel highly-adaptive agent learning machine comprising a plurality of learning modules (3) each having a set of a reinforcement learning systems (1) which works on an environment (4) and determines an action output for maximizing a reward provided as a result thereof and an environment predicting system (2) which predicts a change in the environment, wherein a responsibility signal is calculated such that the smaller a prediction error of the environment, predicting system (2) of each of the learning modules (3), the larger the value thereof, and the action output by the reinforcement learning system (1) is weighted in proportion to the responsibility signal, thereby providing an action with regard to the environment. The machine switches and combines actions optimum to various states or operational modes of ass environment without using any specific teacher signal and performs behavior learning flexibly without using any prior knowledge.
L'invention porte sur une nouvelle machine didactique pour agents comportant: une série de modules d'apprentissage (3) présentant chacun un jeu de systèmes (1) d'apprentissage intensif opérant sur un environnement (4) et élaborant une indication de comportement maximisant la récompense en étant le résultat; et un système (2) de prédiction de modifications de l'environnement. Plus les erreurs du système (2) de prédiction de l'environnement de chaque module d'apprentissage sont faibles, plus fort doit être le signal de responsabilité. Par rapport au signal de responsabilité l'indication de comportement du système (1) d'apprentissage intensif est pondérée et le comportement affectant l'environnement est donné. Dans un environnement non linéaire et non stable, par exemple d'un objet de commande ou d'un système, aucun signal spécifique d'enseignement n'est donné. Les états des différents environnement et comportements optimaux pour les modes de fonctionnement sont commutés et combinés. Un comportement peut être appris avec souplesse sans connaissances préalables.
Doya Kenji
Kawato Mitsuo
Advanced Telecommunication Research Institute International
Japan Science And Technology Corporation
Norton Rose Or S.e.n.c.r.l.,s.r.l./llp
LandOfFree
Agent learning machine does not yet have a rating. At this time, there are no reviews or comments for this patent.
If you have personal experience with Agent learning machine, we encourage you to share that experience with our LandOfFree.com community. Your opinion is very important and Agent learning machine will most certainly appreciate the feedback.
Profile ID: LFCA-PAI-O-1856829