Untitled Document

Szepesvári Csaba SZTAKI

Megerõsítéses tanulás (reinforcement learning)

A megerõsítéses tanulást egyre több területen alkalmazzák sikeresen, mint pl. játékok (a klasszikus példa a megerõsítéses tanulással tanított backgammon világbajnok TD-gammon program), robotika (tavaly egy kutatócsoportnak sikerült helikopterek fejjel lefelé repülését megoldania ilyen módszerekkel), erõforrás allokációs problémák, gyártási optimalizálás, tõzsdei portfólió menedzsment, stb.

Az elõadás megkísérel áttekintést adni a megerõsítéses tanulás elméleti alapjairól, módszereirõl és néhány fent is említett érdekesebb gyakorlati problémáról. Speciálisan szó lesz az elméleti háttérrõl, mint a dinamikus programozás, a Markov döntési folyamatok, magáról a megerõsítéses tanulási feladatról és különbözõ algoritmusokról. Így foglalkozunk a politika és érték iterációs algoritmusokkal, ezek neuronhálóval kombinált változataival. Az elõadásban kiemeljük a módszerek mögött explicit vagy implicit módon meghúzódó feltételezésekrõl, vázoljuk az ismert elméleti eredményeket, azok korlátait és néhány izgalmas még megoldatlan problémát is.

Idõpont: nov. 2. kedd 16:15 Helye: BME I. épület E. szárny, 213.

fõoldal