Homepage  Il progetto dsy.it è l'unofficial support site dei corsi di laurea del Dipartimento di Scienze dell'Informazione e del Dipartimento di Informatica e Comunicazione della Statale di Milano. E' un servizio degli studenti per gli studenti, curato in modo no-profit da un gruppo di essi. I nostri servizi comprendono aree di discussione per ogni Corso di Laurea, un'area download per lo scambio file, una raccolta di link e un motore di ricerca, il supporto agli studenti lavoratori, il forum hosting per Professori e studenti, i blog, e molto altro...
In questa sezione è indicizzato in textonly il contenuto del nostro forum


.dsy:it. .dsy:it. Archive > Didattica > Corsi A - F > Calcolo delle probabilità e statistica matematica
 
[Apolloni] esame 13-02-08
Clicca QUI per vedere il messaggio nel forum
kalbiz
ciao , qualcuno riesce a pubblicare le soluzioni dell'esame ?
grazie

xDARKENx
Originally posted by kalbiz
ciao , qualcuno riesce a pubblicare le soluzioni dell'esame ?
grazie

Intanto ecco il testo, le soluzioni arriveranno, cmq la domanda 8 e 11 sono tuttora in discussione.

kalbiz
Ciao, sempre a proposito delle soluzioni ... sembrerà forse la domanda + facile del compito, ma come avete risolto la domanda 7 ....

xDARKENx
Originally posted by kalbiz
Ciao, sempre a proposito delle soluzioni ... sembrerà forse la domanda + facile del compito, ma come avete risolto la domanda 7 ....


Io ho fatto:

P(c) = P(a) + P(b) - P(a|b) * P(b)

Ma non sono sicuro sia giusto

kalbiz
anche io avrei fatto così, almeno siamo in due.
:-)
grazie

picchio
Ecco alcune indicazioni sulle soluzioni del tema d'esame di CPSM di febbraio con Apolloni.
Tengo a precisare che sono solo tracce, per cui prendetele con spirito critico e non escludo ci possano essere degli errori (vi prego di segnalarmeli nel caso). Invito a consultare i riferimenti ai testi segnalati per maggiori dettagli.

Nota: con AI si intende il testo "Algorithmic Inference in Machine Learning", 2nd edition, 2006 di Apolloni, Malchiodi, Gaito;
mentre con MOOD si intende il testo "Introduzione alla Statistica", 3a edizione, 1997 di Mood et altri

Quesito 1
Per trovare una stat. sufficiente per la media di una v.a. gaussiana si può applicare il "Criterio di fattorizzazione" per il quale una stat. S è sufficiente sse la funz. di versimiglianza L è fattorizzabile in due funz. h(.) e g(.), dove la funz. h(.) dipende solo dal campione, mentre la funz. g(.) dipende dal paramentro theta e dal campione solo attraverso s.
[vedi Teo. 7.4 in MOOD a pag. 313; oppure in AI l' ultimo punto del Fact 2.1 a pag.88, formula (2.34)]

Grazie al fatto che le v.a. X1, ... , Xm sono indipendenti ed equidistribuite la funz. L può essere fattorizzata come produttoria di m gaussiane. Dopo alcuni passaggi, ricordando anche che la varianza è nota, si ottiene che la funz. h è il prodotto di una costante per un exp con in argomento una sommatoria di quadrati di xi, mentre g è il prodotto di due exp uno dei quali ha in argomento la somma di xi e l' altro contiene invece il parametro incognito media. La stat. suff. è la somma delle Xi.
[per lo svolgimento si veda l' esempio 7.21 del MOOD pagg. 314-315, facendo attenzione che in quel caso sigma vale 1; oppure si consulti in AI la tavola della gaussiana a pag 344]

Quesito 2
Si applica l' inferenza algoritmica e in particolare lo strumento del twisting argument con la distribuzione gaussiana.
Si ricorda che ne nel caso della distr. gaussiana si usa una variante del mecc. di campionamento, tale da comporre opportunamente la funz. g in due g1 e g2, in modo che la v.a. uniforme sia prima trasformata in una v.a. gaussiana standard e questa poi nella gaussiana di media mu (µ) e dev. std sigma.
U --> Z --> X
Ciò serve per facilitare il calcolo delle xi riferendoci a delle zi. Infatti non esiste la forma analitica della funz. di ripartizione gaussiana e pertanto nemmeno la sua inversa.
xi = mu + zi*sigma
[vedi AI pag. 94]
Supponendo noto sigma e ricordando che la stat. suff. è la sommatoria delle xi e zi è il seme aleatorio, è facile vedere che all' aumentare di mu aumenta anche xi e di conseguenza la stat. S (monotonicità): (s<= S) <=> (M<= mu).
Calcolando la probabilità su questi eventi sono interessato ad una espressione analitica della funz. di ripartizione di M. La deduco dalla F di S, sapendo che S è somma di v.a. gaussiane. Pertanto S ~ N(m*mu, m*sigma). Dopo alcuni passaggi si ottiene
l'espressione di F di M in funz. della funz. di ripartizione normale std con in argomento (((mu - (s/m)) /sigma/m^(1/2))
[per il metodo di derivazione di veda l' esempio 2.20 in AI a pag 102; per la forma analitica di F di M sia veda anche la tavola della gaussiana in AI a pag 344]

Quesito 3
Lo stimatore di max verosimiglianza si ottiene massimizzando la funz. di verosimiglianza L sul parametro da stimare. Ovvero calcolo il valore di theta tale che i valori del campione che ho osservato siano quelli che hanno la max probabilità di verificarsi.
Si procede come nel quesito 1, fattorizzando L, ma facendo attenzione a non sviluppare il quadrato di (xi-mu). Per comodità di calcolo passo al logaritmo di L e ne calcolo la derivata. Ponendo uguale a zero la funz. derivata ottengo una stima di mu = media campionaria.
[si vedano le tavole a pag. 344 in AI; oppure l'esempio 7.6 a pag. 288 in MOOD]
Sostituendo i valori dati dal tema si ottiene:
stima di mu di X = 17.89
stima di mu di Y = 10.56
La media campionaria è:
a) sia uno stimatore debolmente non deviato
b) sia non deviato
Infatti:
a) per definizione uno stimatore T è debolmente non deviato se
E(T) = theta
nel nostro caso T= media camp., da cui si ottiene che
E(media camp.) = mu (µ), ovvero la media della media campionaria è uguale alla media della popolazione.
[per la definizione di "debolmente non deviato" si veda il par. 2.3.2.1 in AI a pag 114 e per la dimostrazione il Fact 2.3 in AI a pag. 114 formula (2.126), il tutto viene anche generalizzato in formula (2.132) a pag 116 in AI; la stessa definizione si può anche trovare in MOOD def. 7.7 a pag 299, facendo però attenzione che si parla semplicemente di stimatore non deviato (infatti il MOOD non include la teoria dell' Inferenza Algoritmica)]
b) Secondo l' inf. algoritmica uno stimatore si dice non deviato se:
E(theta grande) = stima di theta
[vedi Def. 2.12 in AI a pag. 110]
ovvero nel nostro caso
E(M) = s/m = media campionaria = stima di mu
[vedi anche tavole a pag 344 in AI oppure esempio 2.27 in AI formula (2.107)]

Quesito 4
Si deve calcolare P(paziente a rischio per analisi X)=P(X>mu+(sigma/2))
Si ha che:
P(X>mu+(sigma/2)) = 1- P(X<= mu + (sigma/2))= 1- Phi(1/2)
con Phi funz. di ripartiz. di normale std.
Dalla consultazione delle tabelle si ottiene:
P(X>mu+(sigma/2)) = 0.31
che vale sia per X che per Y.
Si osserva inoltre che il risultato è indipendente dalla media e dalla varianza e pertanto vale per tutte le gaussiane.

Quesito 5
Gli eventi sono insiemi e in particolare sono sottoinsiemi dello spazio campionario. L' operazione fra insiemi che risponde al quesito è l' unione. Pertanto:
C = A U B
[si veda anche Def. 1.6 MOOD pag 23]

Quesito 6
In generale vale la formula:
P(C)=P(AUB)=P(A) +P(B) - P(AnB)
Nel caso che X e Y siano indipendenti si ha P(AnB)=P(A)P(B) e
ricordando che P(A)=0.31=P(B) si ottiene P(C) = 0.524

Quesito 7
Se X e Y non fossero indip. si avrebbe:
P(AnB)= P(A|B)P(B) con P(B)>0
oppure
P(AnB)=P(B|A)P(A) con P(A)>0
[vedi Def. 1.18 in MOOD pag. 44; oppure la (1.54) in AI a pag. 37]

Quesito 8
Se anche la varianza fosse incognita gli stimatori della media di X e della media di Y non cambierebbero. Infatti essi sono pari alla media campionaria dove la varianza non compare.
Invece la probabilità P(M<mu)= F di M diventa funzione della funz. di ripartizione T di student a m-1 gradi di libertà con in argomento ((mu-(s/m))/(s' ^(1/2) / m^(1/2))) dove s' = sommatoria dei quadrati (xi - media camp.). Essendo la varianza incognita, nelle formule la sostituisco con s'.
[si veda l' esempio 2.27 in AI pag. 111]
Infine le P(A) e P(B) abbiamo già visto nel quesito 4 che sono indipendenti da media e varianza, pertanto non variano.

Quesito 9
K è una v.a. che si distribuisce come una v.a. di Bernoulli a param. pk: K ~ B(pk). Infatti si hanno solo due possibili esiti:
{paziente a rischio} a cui associo la codifica 1
{paziente non a rischio}a cui associo la codifica 0.
pertanto la v.a. K prende solo due valori: 0 o 1.

Quesito 10
Si applica la teoria dell' inferenza algoritmica, cercando, attraverso lo strumento del twisting argument, la distribuzione del parametro Pk.
Nel caso della v.a. di Bernoulli il mecc. di campionamento ha la g data da xi=g= 1 se ui<=p, 0 altrimenti.
Si vede facilmente che scegliendo una statistica k= somma delle xi, essa cresce all' aumentare del parametro p, pertanto è monotona con esso.
Se il paramentro cresce la stat. non può decrescere:
l' evento (P<p) è incluso nell' evento (K>=k)
Viceversa per essere sicuro che il paramentro cresca devo aumentare di uno la statistica. Si ottiene l' evento
(K>= k+1) incluso nell' evento (P < p).
Calcolando le probabilità su tali eventi ottengo che la c.d.f di P è superiormente e inferiormente limitata da due distribuzioni la cui forma analitica può essere calcolata considerando che la v.a. K è binomiale.
[la derivazione della F di P è spiegata nel paragrafo 2.1.5 di AI e la F di P è definita nella formula (2.20) finale]
Conoscendo la distribuzione del parametro P, si può calcolare la sua aspettazione, ovvero la stima non deviata, secondo l' inf. algoritmica. Essa risulta s/(m+1) <= stima di p <= (s+1)/(m+1)
dove s è la somma dei ki.
[il calcolo non è banale e si rimanda alle tabelle in tavola a pag. 333 di AI].
Pertanto, essendo s=3 ed m=20:
3/21 <= stima di p <= 4/21

Quesito 11
La X e la Y sono due gaussiane indipendenti. La v.a. W = X + Y sarà pertanto gaussiana con media data dalla somma delle medie e varianza data dalla somma delle varianze.
Considero la W' di Bernoulli associata alla gaussiana W, dove con evento favorevole indico {W> (muw + (sigmaw/2))} a cui associo la codifica 1 ed evento sfavorevole il complementare a cui associo la codifica 0.
W ~ B(pw')
Il parametro della binomiale pw' non lo conosco, ma potrei calcolarne una stima calcolando la
P(W> stima di w + (sigma di w/2)),
ma abbiamo già visto dal quesito 4 che per qualsiasi gaussiana tale probabilità vale 0.31.
Infine confronto la W' ~ B(0.31) con la K ~ B(3/20) del quesito 9,
dove la W' modellizza il primo ospedale, mentre la K il secondo.
Il quesito chiede il numero di controlli supplementari, ovvero il conteggio associato alle bernoulliane. Sappiamo che il conteggio associato a una v.a.di Bernoulli è espresso da una binomiale.
In particolare relativamente alla W si avrà una binomiale di parametri n=20 e p=0.31, mentre in relazione alla K la binomiale avrà parametri n=20 e p=(3/20). La media delle due binomiali risulta pertanto nel caso del primo ospedale n*p= 6.2,
nel caso del secondo ospedale n*p = 3, da cui si deduce che in media il primo ospedale effettuerà più controlli del secondo.

Per arrivare allo stesso risultato potevo anche dedurre subito che il quesito chiedeva un conteggio associato alle bernoulliane, ovvero due binomiali i cui parametri fornivano il risultato.
Converto la v.a. X gaussiana in una bernoulliana attraverso il confronto di ciascun elemento del campione con stima di mu + sigma/2; se l'elemento del campione è > vi associo la codifica 1,
altrimenti vi associo la codifica 0.
Ottengo per le due v.a. due campioni bernoulliani di taglia 10
X --> X': {1,0,0,0,0,0,0,1,1,0}
Y --> Y': {1,0,0,0,0,0,0,0,1,1}
Stimandone il parametro p attraverso ad es. la media campionaria ho che X' ~ B(3/10) e Y' ~ B(3/10).
Il num. di controlli supplementari è fornito dalle binomiali associate
X' --> Bin(n=10, p=3/10)
Y' --> Bin(n=10, p=3/10)
Essendo le due binomiali indipendenti fra loro e con uguale parametro p, posso affermare che la loro somma è a sua volta una binomiale Bin(n=20, p=3/10)
[vedi Fact B.6 in AI pag 371]
Abbiamo già visto che dalla v.a. K si può ottenere una binomiale
Bin(n=20, p=3/20). Confrontando le medie delle due binomiali si ottiene che il primo ospedale effettuerà in media più controlli del secondo.

Un terzo metodo poteva sfruttare gli intervalli di confidenza.
Qui ne fornisco solo dei brevi cenni.
Si parte dalla legge dei grandi numeri che permette di calcolare la probabilità che la media mu (µ) sia compresa in un certo intervallo i cui estremi dipendono dalla media campionaria e da epsilon.
Normalizzando la v.a. W, somma di v.a. X e Y gaussiane, e scegliendo come epsilon il valore dato da
(quantile di delta/2)^2 * varianza / m^(1/2),
ottengo una espressione della probabilità che dipende dalla media campionaria, dal quantile, dalla dev. standard e da m.
Inoltre considero la media campionaria come una freq. relativa f che, vista al variare del campione, diventa una v.a. F. Per il teo. del limite centrale tale F ~ N(0,1) per m grande. Ottengo un intervallo di confidenza calcolato sulla v.a. F in cui il paramentro cercato è p=E(F).
In base al valore di confidenza cercato otterrò degli intervalli di confidenza della stima del parametro per il primo e secondo ospedale che nuovamente mi confermano che il primo effettuerà più controlli del secondo.

Powered by: vbHome (lite) v4.1 and vBulletin v2.3.1 - Copyright ©2000 - 2002, Jelsoft Enterprises Limited
Mantained by dsy crew (email) | Collabora con noi | Segnalaci un bug | Archive | Regolamento |Licenze | Thanks | Syndacate