ITEM METADATA RECORD
Title: The Use of Domain Knowledge in Reinforcement Learning (Het gebruik van domeinkennis in reinforcement learning)
Other Titles: The Use of Domain Knowledge in Reinforcement Learning
Authors: Goetschalckx, Robby
Issue Date: 29-Sep-2009
Abstract: Reinforcement Learning ofte `leren uit beloningen' is de tak van kunstma tige intelligentie die bestudeert hoe agenten optimaal gedrag kunnen ler en in sequentiele beslissingsproblemen, waar het soms pas na enkele acti es duidelijk wordt wat de waarde van een vorige beslissing was. Dit lere n gebeurt door exploratie in de omgeving. In de meeste klassieke belonin gsleertechnieken wordt de omgeving als een zwarte doos bekeken waarvan n iets bekend is over het mogelijke gedrag, en kan het enkel door voldoend e exploratie duidelijk worden welke beslissingen welke gevolgen hebben. In veel domeinen is er echter allerhande expertkennis over de achterligg ende processen beschikbaar. Het is aannemelijk dat het gebruik van deze informatie de leertaak drastisch kan vereenvoudigen. Het eerste deel van deze thesis onderzoekt enkele manieren waarop dergel ijke kennis kan gebruikt worden om het leerproces te versnellen. Dit omv at onder andere het geval waarin er een volledig en correct model van de omgeving gegeven is en een manier om verschillende toestanden en acties te behandelen alsof ze identiek zijn. We introduceren twee nieuwe algor itmes, het eerste lost op een efficiente manier een gegeven sequentieel beslissingsprobleem op, het tweede gebruikt een afstandsmaat tussen toes tand-beslissingsparen om een opdeling van de omgeving te maken, wat leid t tot een grote reductie in de grootte van het probleem zonder een grote fout te introduceren. In het tweede deel van dit werk concentreren we ons op problemen waarbij extra informatie over het domein enkel voorhanden is met een kost. Meer informatie kan tot een beter gedrag leiden, maar zal een hogere kost me t zich meebrengen. In dit deel van de thesis zal de balans tussen kost e n waarde van informatie bestudeerd worden, zowel voor gewone numerieke v oorspellingstaken als voor sequentiele beslissingsproblemen. Drie nieuwe algoritmes worden geintroduceerd die gebruik maken van, resp ectievelijk, lineaire regressie, regressiebomen en lineaire model-bomen. Van al deze algoritmes wordt aangetoond dat er geen informatie aangesch aft wordt die zijn kost niet waard is.
Publication status: published
KU Leuven publication type: TH
Appears in Collections:Informatics Section

Files in This Item:
File Status SizeFormat
thesis.pdf Published 1285KbAdobe PDFView/Open

 


All items in Lirias are protected by copyright, with all rights reserved.