Dynamical programming
Inventory control problem, chess match, pacman
Control
Givet en differentialligning, discretize, linearize apply LQR
PID, sæt kp til en værdi se hvad der sker
Toget, harmonisk occilattor
Pendulet
Reinforcement
Markov Decision Processer,
Bellmans equation, kig på jar jar
Notation, Notation, v*, vπ, q*, qπ.. Hvordan relatere de til hinanden.
Tabular methods, her er gridworld hvad gør TD; Q og Sarsa
Hvad gør en bandit. Givet en sekvens af action og rewards hvad er den næste action
Simple bandits, bandits med alphasoft og UCB1
Monte Carlo
MISC