Szepesvári Csaba SZTAKI

Megerősítéses tanulás (reinforcement learning)

A megerősítéses tanulást egyre több területen alkalmazzák sikeresen, mint pl. játékok (a klasszikus példa a megerősítéses tanulással tanított backgammon világbajnok TD-gammon program), robotika (tavaly egy kutatócsoportnak sikerült helikopterek fejjel lefelé repülését megoldania ilyen módszerekkel), erőforrás allokációs problémák, gyártási optimalizálás, tőzsdei portfólió menedzsment, stb.

Az előadás megkísérel áttekintést adni a megerősítéses tanulás elméleti alapjairól, módszereiről és néhány fent is említett érdekesebb gyakorlati problémáról. Speciálisan szó lesz az elméleti háttérről, mint a dinamikus programozás, a Markov döntési folyamatok, magáról a megerősítéses tanulási feladatról és különböző algoritmusokról. Így foglalkozunk a politika és érték iterációs algoritmusokkal, ezek neuronhálóval kombinált változataival. Az előadásban kiemeljük a módszerek mögött explicit vagy implicit módon meghúzódó feltételezésekről, vázoljuk az ismert elméleti eredményeket, azok korlátait és néhány izgalmas még megoldatlan problémát is.

 

Időpont: nov. 2. kedd 16:15 Helye: BME I. épület E. szárny, 213.

fõoldal