Dynamical programming

Inventory control problem, chess match, pacman

Control

Givet en differentialligning, discretize, linearize apply LQR

PID, sæt kp til en værdi se hvad der sker

Toget, harmonisk occilattor

Pendulet

Reinforcement

Markov Decision Processer,

Bellmans equation, kig på jar jar

Notation, Notation, v*, vπ, q*, qπ.. Hvordan relatere de til hinanden.

Tabular methods, her er gridworld hvad gør TD; Q og Sarsa

Hvad gør en bandit. Givet en sekvens af action og rewards hvad er den næste action

Simple bandits, bandits med alphasoft og UCB1

Monte Carlo

MISC