![Contract Post Collapse](//www.dsy.it/forum/images/collapse.gif) |
zacguyot |
.primate.
Registered: Oct 2009
Posts: 61 (0.01 al dì)
Location: Milano
Corso: Informatica Magistrale
Anno: 1
Time Online: 10:07:35 [...]
Status: Offline
Edit | Report | IP: Logged |
Dubbio Slide/Libro - Iterative Policy Evaluation
Raga forse il prof lo avrà detto a lezione ma nn c'ero... Vi spiego il mio dubbio:
non riesco a capire perchè nell'esempio della 4x4 gridworld fatto sia sulle slides(L07) e presente anche sul libro(chap 4.1) c'è differenza se i dati di inizializzazione sono gli stessi: gamma=1, R=-1 per tutti gli stati tranne il TS(R=0) e policy equiprobabile=1/4
In particolare mi riferisco a quando k = 1, sul libro i V(s) sono tutti a -1 (tranne ovviamente i TS), mentre sulle slide i V(s) delle celle 1,4,10,14 sono 0,75 mentre gli altri sono -1(tranne i TS)
Applicando l'equazione di bellman mi trovo come fa il prof ma non capisco perchè con il libro no...
cosa mi sfugge???
qualcuno mi sa rispondere?
|