.dsy:it.
Show 150 posts per page

.dsy:it. (http://www.dsy.it/forum/)
- Informatica applicata alla musica (http://www.dsy.it/forum/forumdisplay.php?forumid=232)
-- [HAUS]Risposte a domande d'esame (http://www.dsy.it/forum/showthread.php?threadid=28801)


Posted by Voodoo on 08-01-2007 09:45:

[HAUS]Risposte a domande d'esame

Sono in possesso di una ventina di domande circa,riguardanti precedenti scritti di Haus. Inizio ora e continuo per tutto l'arco della giornata di oggi a buttar dentro le risposte,rieditando continuamente il post. Sono superbenaccette le correzioni delle panzane e le integrazioni con materiale ritenuto più idoneo,così come l'espressione di qualsiasi dubbio.
Esame Giugno 2004 (quello sul sito del LIM):


  1. Descrivere le tecniche di quantizzazione differenziale del suono, con particolare riferimento alle componenti di rumore che le caratterizzano

    La quantizzazione differenziale consiste nel codificare la differenza tra un valore campionato e il successivo invece dei valori stessi. A differenza della quantizzazione lineare, che essendo istantanea non richiede memoria, la quantizzazione differenziale richiede tanta memoria quanta necessaria per la codifica del campione precedente all'attuale.
    Tra queste abbiamo la Delta modulation (DM), metodo di codifica del segnale campionato che si basa sull’approssimazione del valore istantaneo del segnale mediante somma o sottrazione di un quanto di ampiezza δ. Questo metodo consente di avere un errore che non supera mai ±δ,purchè valga la condizione di avere una sufficiente frequenza di campionamento (altrimenti si introducono altri transienti).
    Il rumore si esprime così:
    code:
    fk(t)=f(t) + eGk(t) + eSOK(t)
    dove eGk(t) è la componente di rumore dovuta all’intervallo di DM (errore di granularità) mentre eSOK(t) è la componente di rumore dovuta ai transienti in cui l’errore può eccedere ±δ (errore di sovraccarico).
    Sono estensioni della DM,l’ADM (modulazione delta adattiva) in cui il quanto di ampiezza δ,su cui si basa il metodo,viene variato adattivamente quando si incontra un transiente,così da eliminare/limitare la componente di errore di sovraccarico nei transienti.
    Un'altra tecnica è la DPCM,che consiste sempre nel codificare la differenza tra un valore campionato e il successivo invece dei valori stessi ed è simile alla DM ma al posto di un bit usa una parola di codifica costituita da un certo numero N di cifre binarie per ogni campione. La quantizzazione differenziale non introduce perdita di informazione frequenziale e consente una compressione della codifica tanto più vantaggiosa quanto più il segnale f(t) è caratterizzato da una banda in bassa frequenza (corrisponderebbe ad una derivata del segnale caratterizzata da valori modesti e quindi a un intervallo più stretto di valori dacodificare e trasmettere). L’errore di quantizzazione è uguale a quello della DM. Esistono varianti ed estensioni di questo modello come ADPCM,metodo adattivo di quantizzazione differenziale,dove viene variata la grandezza del passo di quantizzazione per permettere un'ulteriore riduzione della larghezza di banda richiesta.

  2. Descrivere le caratteristiche funzionali dei coder/decoder MP3.

    L'encoder riceve in input un segnale PCM e lo legge a blocchi di 384,576 o 1152 campioni,in funzione del formato MPEG/Layer utilizzati. Per ognuno dei blocchi esegue le seguenti azioni:
    - 1)si convertono i campioni PCM nel corrispondente dominio frequenziale tramite Banco di filtri polifasico seguito da una Trasfromata Coseno Modificata (MDCT) (il segnale passa dal dominio del tempo alla corrispondente rappresentazione frequenziale);
    - 2)si usa un modello psicoacustico per analizzare lo spettro del segnale (calcolato con la Trasfromata di Fourier) e definire un livello di soglia di udibilità SMR (Signal To Mask Ratio) sfruttando i principi acustici dell’apparato uditivo umano. Il modello fornisce al quantizzatore non lineare l'informazione riguardo quali informazioni sono prcepibili o meno;
    - 3)il quantizzatore non lineare codifica numericamente lo spettro ricevuto dal banco di filtri ibrido in funzione dell’importanza di ogni banda di frequenze definita dal modello psicoacustico (se il modello dice che una certa banda viene poco percepita,verrà codificata con pochi bit altrimenti viceversa). Si vuole una quantizzazione dello spettro tale per cui il rumore di quantizzazione introdotto si trovi al di sotto dell’SMR fornita dal modello psicoacustico.
    - 4)la codifica numerica dello spettro frequenziale generata dal quantizzatore non lineare viene impacchettata secondo la sintassi dello standard MPEG utilizzato (l’algoritmo MPEG Layer-3 prevede un ulteriore compressione con l’algoritmo di Huffman,metodo di codifica loseless).

    Il decoder riceve in input uno streaming MPEG/Audio e per ogni frame effettua le operazioni seguenti:
    - 1)Spacchettamento: reperisce i frame,legge le informazioni codificate e ne estrae lo spettro (per le codifiche MP3,qui c’è anche una decodifica Huffman).
    - 2)Banco di filtri ibrido Inverso: prende lo spettro del segnale e genera i corrispondenti campioni PCM (384,586,1152) da dare in input al DAC della scheda audio o da scrivere su file WAV/AIFF.

  3. Descrivere la codifica EFM (Eight-to-Fourteen Modulation).

    La codifica dell’informazione nei dischi ottici viene effettuata codificando blocchi di 8 bit di informazione in parole di codifica di 14 bit concatenate tra loro mediante parole aggiuntive di 3 bit (merging bits) ciascuna (codifica EFM – Eight To Fourteen Modulation). Ecco i criteri adottati:
    - 1)il passaggio da 8 a 14 bit è basato su una tabella di corrispondenza tra le 2^8 (256) possibili parole di 8 bit e 256 delle 257 parole di 14 bit che soddisfano la proprietà di avere sequenze di zeri lunghe almeno 2 e al massimo 10 tra una cifra 1 e la successiva: 14 bit è appunto la minima lunghezza della parola di codifica che soddisfa tale proprietà. Parole come 01010000000000 e 01000000000000 non sono accettabili perché hanno seuqneze di zeri inferiori a due per la prima e superiori a 10 per la seconda,mentre 0100100010000 e 10000000100000 sono accettabili.
    - 2)i 3 bit aggiuntivi tra una parola di codifica e la successiva servono per evitare di non rispettare la proprietà su indicata nell’area di giunzione. Le triple possibili sono solo 4: 000,001,100,010 e tra queste viene scelta di volta in volta quella che minimizza la DSV (Digital Sum Value).
    - 3)La ridondanza per la correzione degli errori viene aggiunta a queste parole di 14+3 bit nella misura di un terzo rispetto all’informazione codificata (1 byte di ridondanza ogni 3 byte di informazione).
    - 4)Infine ai frames viene applicata la tecnica di interleaving per distribuire eventuali raffiche di errori (imperfezioni o danneggiamenti del supporto) in differenti parole di codifica.

  4. Illustrare e dare un quadro comparativo delle diverse modalità di rappresentazione dell'informazione temporale:
    - nel segnale audio,
    - nelle sequenze MIDI
    - nella codifica dell'informazione musicale di una partitura


    Ci devo pensare,se avete idee intanto.. :D

  5. Illustrare un modello di analisi/sintesi del suono di tipo additivo

    Partendo dal presupposto per il quale il timbro caratteristico di un dato strumento è prodotto dalla fondamentale più una determinata distribuzione delle armoniche, è possibile ricreare un suono naturale partendo dalla somma di un certo numero di frequenze fondamentali (segnali sinusoidali) e distribuendole nello spettro sonoro. La somma avviene per addizione di ogni ampiezza istantanea. Tale tecnica, pur permettendo teoricamente di poter riprodurre qualsiasi suono esistente, in realtà è di estrema complessità; infatti abbiamo la necessità di controllare un numero elevatissimo di fondamentali, che molto probabilmente andranno modulate individualmente, per ottenere una risposta convincente all'ascolto.
    Il modello additivo fa parte della famiglia dei modelli timbrici matematici.

  6. Descrivere la regola di scatto di una transizione nelle reti di Petri musicali, dettagliando gli effetti su tutti i nodi connessi alla transizione, inclusi eventuali oggetti musicali associati ai posti.

    Una transizione è abilitata allo scatto se tutti i posti in ingresso alla transizione hanno una marcatura maggiore o uguale al peso dei rispettivi archi in ingresso,se una transizione è abilitata allo scatto, l’eseuzione dello scatto toglierà dai posti in ingresso un numero di marche pari al peso dell’arco in ingresso ed aggiungerà ad ogni posto in uscita tante marche quanto è il peso dell’arco in uscita.
    Sebbene le transizioni siano abilitate non è detto che debbano scattare per forza:possono esserci questioni di conflitto fra le transizioni (lo scatto di una inibisce l'altra) oppure semplicemente legate al non determinismo. Lo scatto quando avviene è instantaneo nelle PN in cui non vi è il concetto di tempo.
    Tutti gli oggetti musicali, a qualsiasi livello di astrazione, sono temporizzati. Possiamo vedere il tempo come un oggetto indipendente con cui ogni altro oggetto deve relazionarsi. Gli oggetti musicali agiscono nel tempo in modo concorrente, comunicando e sincronizzandosi in particolari istanti sull’asse dei tempi.
    Quando passiamo alla descrizione formale del linguaggio musicale, il modello adottato deve necessariamente assicurare due condizioni:
    - la consistenza temporale, ossia l’esistenza di un unico asse temporale;
    - la risoluzione temporale, ossia la distanza minima tra due punti distinti dell’asse temporale.
    L'estensione delle PN considerata abilita la transizione in uscita non appena termina l’esecuzione del frammento musicale.

  7. Descrivere in dettaglio i comandi che consentono l'attuazione della nozione di nota in MIDI

    Fra i I Channel Voice Message,che controllano in generale le voci dello strumento (cioé che cosa deve suonare lo strumento) ritroviamo:
    Il messaggio NOTE ON (Channel Voice Message) : questo messaggio viene inviato da una tastiera, batteria elettronica etc. quando una nota viene attivata (tasto per una tastiera, pad per una batteria elettronica etc.). Il messaggio MIDI di NOTE ON è composto da uno Status Byte e due Data Byte.
    Il messaggio NOTE OFF (Channel Voice Message): questo messaggio viene inviato quando una nota viene disattivata e, come il messaggio di NOTE ON è composto da uno Status Byte e due Data Byte. Quando un sintetizzatore MIDI riceve questo messaggio, "spegne" la nota precedentemente aperta con un messaggio di NOTE ON. Il parametro velocity, può servire a gestire la fase di release del suono. Un messaggio di NOTE ON con velocity 0 è da considerarsi come un corrispondente NOTE OFF.
    I Channel Mode Message,che controllano come lo strumento deve gestire i Channel Voice Message (cioé il comportamento dello strumento al momento della ricezione di un Voice Message). Questi messaggi appartengono alla famiglia dei Control Change e occupano gli ID da 122 a 127.
    Il 123 corrisponde a All Notes Off che serve a spegnere tutti in Note On attivi sul canale MIDI specificato nello Status Byte.
    Ogni messaggio da 123 a 127 ha come conseguenza un All Note Off.

  8. Illustrare la nozione di "spine" nel formato MX (XML musicale IEEE)

    Lo spine è un sottolivello del layer logic e contiene la funzione di mappatura spazio-temporale. E' il cuore di MX ed è un elemento sempre necessario.
    Lo Spine è collegato a tutto,tranne il General poiché non ha senso sincronizzare delle stringhe alfanumeriche a dei simboli nella partitura,mentre per tutto il resto ha senso. Lo Spine è una struttura dati costituita da una sequenza di eventi (, ciascuno dei quali presenta un riferimento nel dominio dello spazio e del tempo),vi elenchiamo tutti i simboli che per qualche motivo hanno interesse nella partitura e gli diamo un nome. Quando un evento ricorre lo richiamiamo attraverso il suo identificativo univoco. E' una struttura che rappresenta la relazione spazio-temporale implicita nella musica. Grazie all’uso dello spine, i differenti formati di file possono essere messi in relazione per ottenere una descrizione completa dell’informazione musicale. Il suo obiettivo è costruire una struttura astratta cui fanno riferimento tutti gli strati che descrivono le proprietà del materiale originario,si rende dunque necessario un punto di riferimento unico per tutte le istanze appartenenti a layer diversi o allo stesso layer.
    Nello spine è necessario identificare ed etichettare tutti gli eventi "significativi" in partitura,ossia come qualsiasi segno di cui si voglia tener traccia nell’MX.

  9. Definire le nozioni di "chunk" e di "tag" nel formato NIFF

    Il formato NIFF è un file coerente con la struttura Resource Interchange File Format (RIFF) di Microsoft. In questo tipo di struttura gli elementi relativi ai dati contenuti sono raggruppati in contenitori detti "chunks" che vengono, secondo le relazioni, raggruppati in contenitori detti "lists".
    Un file di tipo RIFF e ognuno dei suoi tipi di dati (chunks e lists) possono variare in lunghezza. Nel NIFF, un ulteriore tipo di dati , definito come parte integrale del formato è il "tag", usato per associare informazioni ad un chunk.
    L’elemento di base di un file RIFF è denominato chunk. Un chunk è composto da 4 caratteri ASCII che codificano il tipo di chunk, seguiti da un campo che descrive la sua lunghezza e dai dati del chunk. Una list è un tipo particolare di chunk che contiene susseguenti chunks, o subchunks. I 4 caratteri che la codificano sono "LIST". Una form è uno speciale tipo di chunk che compare all’inizio di ogni file RIFF e contiene tutti gli altri chunks e le altre liste presenti nel file. Il 4 caratteri ASCII che codificano il form sono sempre "RIFF", o nel caso del formato Motorola "RIFX", usato nel formato NIFF per convenzione. Il tipo di form, nel file RIFF di tipo NIFF è "NIFF".
    Ogni Chunk in un file di tipo NIFF è formato da una parte di lunghezza fissa e una parte di lunghezza variabile. La parte a lunghezza fissa, per ogni tipo di chunk, contiene le relative informazioni così come nel file NIFF sono state codificate. La parte a lunghezza variabile è composta da una serie di tags opzionali i quali possono essere usati occasionalmente o solo da particolari programmi.
    Un tag è un insieme di informazioni a lunghezza variabile composto da 1 byte di codifica che ne identifica il tipo, seguito da 1 byte che esprime la lunghezza del tag stesso e dai dati in esso contenuti.

  10. Definire la dimensione dei dati audio di un file nei seguenti casi:
    - 1 minuto di audio CD-DA (Compact Disc Digital Audio) stereo
    - 1 minuto di audio MP3 Single Channel, bitrate 192k
    - 1 minuto di audio PCM quadrafonico (4 canali), parole di quantizzazione di 24 bit, frequenza di campionamento 72KHz


    - 44100 Hz * 16 bit * 2 canali * 60 secondi = 10,09 MB circa (84,672 Mbit)
    - 192 kbps * 60 = 11,52 Mbit circa (pensiamo che i canali non servano)
    - 72000 Hz * 24 bit * 4 canali * 60 secondi = 49,44 MB circa (414,72 Mbit)

__________________
GET DROPBOX
# il grado di lentezza è direttamente proporzionale all'intensità della memoria;il grado di velocità è direttamente proporzionale all'intensità dell'oblio (Kundera) #
BLOG: Byte Strike
ChRiS :ciao:


Posted by Voodoo on 08-01-2007 11:57:

Esame 29 giugno 2006


  1. Descrivere le caratteristiche della conversione analogico/digitale del segnale audio

    Prima di tutto di esegue il campionamento del segnale, che prevede la discretizzazione del segnale rispetto al tempo prelevando i valori istantanei di ampiezza a intervalli fissati di tempo. La condizione per poter rappresentare univocamente un segnale sorgente mediante una sequenza di campioni ottenuta prelevando il valore istantaneo di ampiezza del segnale ad intervalli fissati di tempo aventi estensione temporale π/v0 (campionamento uniforme rispetto al tempo), è che il segnale sia a banda limitata (trasfromata nulla per valori eccedenti la freq. massima) per una certa frequenza v0 e che la frequenza di campionamento sia vc ≥ 2 v0 (freq. Nyquist).
    Per rispettare il teorema di campionamento,una volta scelta la frequenza di campionamento si dovranno eliminare tutte le componenti superiori o uguali alla sua metà grazie ad un filtro passabasso da anteporre al campionatore.
    La codifica numerica degli impulsi si ottiene mediante quantizzazione nel discreto dei valori reali degli impulsi campione (PCM). La quantizzazione produce sempre una certa degradazione del segnale dovuta all’introduzione di rumore (errore nella codifica del segnale).

  2. Descrivere la nozione di variable bit rate nelle codifiche compresse del segnale audio

    Il bitrate (bit/s) è il numero di bit necessari per trasmettere un secondo di informazione audio.
    Quello di tipo variabile permette che ogni frame abbia un proprio valore di bitrate in funzione della quantità di bit per codificare l’informazione audio associata. Si ha elevata qualità audio e buon tasso di compressione ma non è possibile conoscere a priori la dimensione del file prodotto. È supportato obbligatoriamente dal layer 3 di MPEG1 e 2.

  3. Illustrare le modalità di comunicazione tra dispositivi MIDI e computer

    Possiamo definire lo standard MIDI come un insieme di specifiche hardware e software che rende possibile lo scambio di informazioni (note, modifiche di configurazione, controllo dell'espressione etc.) tra strumenti musicali elettronici o altri dispositivi elettronici come computers, sequencer, centraline di controllo luci, mixer etc.
    La comunicazione di tipo MIDI si realizza attraverso messaggi formati da uno Status byte (che identifica il messaggio) seguito da uno o due Data byte (che descrivono il messaggio). I messaggi di tipo Real Time e Exclusive sono eccezioni.
    I messaggi MIDI si dividono in due categorie principali: Channel Message e System Message.
    Il ricevente accetta messaggi MIDI tramite la porta fisica identificata come "MIDI IN" ed esegue comandi MIDI. Il trasmittente produce messaggi MIDI e li trasmette tramite la porta fisica identificata come "MIDI OUT".

  4. Caratterizzare le diverse modalità di rappresentazione della frequenza del segnale audio nell'oscillatore digitale e confrontarne le caratteristiche

    L’oscillazione elementare è la sinusoide. Esistono 2 modi per ottenere una sinusoide “digitale”:
    - campionare e quantizzare una sinusoide “analogica”
    - calcolare i valori della funzione trigonometrica.
    Entrambi i metodi sono approssimativi, perchè la sinusoide sarà descritta da una serie di valori. La descrizione della sinusoide nel campo digitale utilizza una tabella dei valori che dipende dai parametri utilizzati nel campionamento e nella quantizzazione. Se utilizzassimo una frequenza di campionamento di 44.1 kHz, la tabella sarebbe costituita da valori tra 0 e 44099.
    Per ottenere una certa frequenza, basterà “leggere” la tabella ad una certa velocità. E’ possibile anche leggere i valori della tabella “a salti” in modo da riprodurre la tabella un numero minore di volte; si ha però perdita di informazione. Tipicamente la tabella dei valori contiene meno di 44100 campioni.
    Esitono vari metodi per trovare i valori dei 12 semitoni all’interno di un’ottava:
    Troncamento :leggendo la tabella con un passo n, dovrò leggere n+1 campioni, perchè dovrò leggere anche l’indirizzo temporale del valore. Dovrò quindi moltiplicare i valori per n+1/n e successivamente eliminare la parte decimale dei valori ottenuti. In pratica vario la frequenza utilizzando il rapporto tra la frequenza che voglio ottenere e la frequenza di partenza.
    Arrotondamento : il procedimento è lo stesso del troncamento, solo che invece di eliminare i valori decimali, arrotondo i valori al numero intero più vicino.
    Interpolazione: lineare consiste nel dare un peso maggiore al valore che, tra due, si avvicina di più al valore reale. È un media ponderata.
    Polinomiale: approssima in base alla pendenza della funzione nel dato punto. E’ la soluzione migliore, ma più costosa a livello di calcolo. Ora siamo in grado di generare tutte le frequenze, ma i risultati saranno qualitativamente relativi alla grandezza delle tabella.

  5. Descrivere la temporizzazione nei modelli di reti di Petri musicali

    Le PN sono particolarmente adatte a descrivere processi concorrenti e controllare la loro eventuale sincronizzazione. Analizzando il processo da un punto di vista temporale, quando una transizione è abilitata allo scatto, la durata di tale scatto è supposta istantanea. Inoltre, come già detto, non è determinabile l’istante in cui lo scatto (abilitato) avrà luogo. Non ci sono misure di tempo all’interno delle PN (se non si considerano sue estensioni particolari): è il comportamento della rete che implicitamente determina la temporizzazione, ed è la struttura della rete a definire la sequenza degli scatti. Osserviamo inoltre che la sequenza degli scatti può cambiare in diverse esecuzioni della rete: si possono avere più transizioni abilitate nello stesso istante e non si può sapere quale di queste scatterà per prima (non determinismo,procurato anche da situazioni di conflitto).
    Al fine di descrivere la durata di eventi temporizzati all’interno delle PN, è possibile associare degli intervalli o durate temporali alle transizioni o ai posti.
    Tutti gli oggetti musicali, a qualsiasi livello di astrazione, sono temporizzati. Possiamo vedere il tempo come un oggetto indipendente con cui ogni altro oggetto deve relazionarsi. Gli oggetti musicali agiscono nel tempo in modo concorrente, comunicando e sincronizzandosi in particolari istanti sull’asse dei tempi.
    Quando passiamo alla descrizione formale del linguaggio musicale, il modello adottato deve necessariamente assicurare due condizioni:
    · la consistenza temporale, ossia l’esistenza di un unico asse temporale;
    · la risoluzione temporale, ossia la distanza minima tra due punti distinti dell’asse temporale.
    L'estensione delle PN considerata abilita la transizione in uscita non appena termina l’esecuzione del frammento musicale.

  6. Illustrare le caratteristiche del layer "structural" della codifica MX (XML musicale IEEE PAR 1599)

    Il livello Structural consente di decrivere blocchi di infromazione musicale e la relazione fra essi, per esempio le caratteristiche armoniche o i passaggi tra le varie parti di una parte più complessa,prevede delle analisi effettuata sul Music Logic,aggregazioni trattate in questo livello,agglomerati di note per esempio oppure segmenti melodici che corrispondono a determinate parti di una forma musicale (strofa,ritornello,ecc). structural si occupa di descrivere le relazioni interne al brano in esame: temi musicali, soggetti, sequenze o segmenti che si ripetono, o che presentano un particolare interesse. Le informazioni qui racchiuse sono il frutto arbitrario di analisi di carattere musicologico, svolte manualmente o automaticamente. Troviamo in pratica il risultato di una segmentazione, o la rappresentazione dell’informazione musicale basata su Reti di Petri.

  7. Descrivere le principali caratteristiche delle tecniche di fingerprinting nei sistemi DRM

    Un fingerprint acustico è un codice univoco generato a partire dalla forma d'onda del segnale. A seconda dell'algoritmo usato, il fingerprint acustico può essere usato per categorizzare o identificare automaticamente un estratto sonoro a partire dal suo contenuto. Usi pratici sono il monitoraggio di servizi di broadcasting,identificazione della musica riprodotta,monitoraggio di rete per servizi P2P,gestione di librerie,ecc.
    Un fingerprint acustico è diverso da un codice hash generato dal contenuto binario di un file: quest'ultimo identifica un file particolare,il fingerprinting acustico indentifica una registrazione audio.
    Quindi un fingerprint acustico robusto sarà basato su caratteristiche percettive dell'audio e quindi se due files sonori identici ad un ascoltare umano sono confrontati,anche se i binari sono diversi,un fingerprint acustico identifica il matching. Per esser considerato robusto deve resistere a manipolazioni dei campioni sonori,soprattutto nel caso di codifiche compresse.

  8. Descrivere le principali caratteristiche della sintesi del suono basata su modelli fisici

    Dal punto di vista fisico serve a comprendere tutti i fenomeni che concorrono alla creazione di un dato suono, ed in ultima analisi descrivere con precisione i principi fisici su cui si basa il funzionamento del sistema in questione.
    Dal punto di vista musicale a generare suoni simili a quelli di sistemi acustici fisici (strumenti musicali o altro) mediante l'uso di algoritmi le cui variabili siano in relazione con grandezze fisiche
    Le attuali conoscenze nel campo dei modelli fisici derivano dagli studi condotti da entrambi i punti di vista.
    Dal punto di vista fisico il modello é completo solo quando si é certi di avere spiegato tutti gli aspetti del comportamento dell'oggetto in questione. Questo comporta che tutte le variabili fisiche coinvolte (masse, forze, costanti elastiche, dissipazioni) vengano considerate nel modello.
    Dal punto di vista musicale il modello vale se permette (possibilmente in tempo reale) di produrre suoni somiglianti quelli degli strumenti musicali, potendo applicare delle modificazioni del timbro mediante l'azione su variabili a cui si possa associare un significato fisico (pressione, flusso, ecc.).
    La descrizione del sistema non deve essere necessariamente rigorosa, ma piuttosto "vigorosa".
    Il modello deve rispondere in maniera prevedibile in funzione delle variabili "fisiche"coinvolte nella simulazione. Uno di principali vantaggi dell'approccio alla sintesi dei suoni basato sui modelli fisici rispetto al tradizionale approccio algoritmico (TVF, AM, FM) é infatti la possibilità fare previsioni sui suoni che vengono generati.

  9. illustrare la nozione di modello interpretativo tra livello simbolico e livello audio

    Si può segmentare un brano,cioè s evidenziarne i contenuti principali aggregando gruppi di elementi (note o figurazioni) ciascuno dei quali, isolatamente, e’ scarsamente significativo.
    Queste valutazioni possono essere eseguite su di una partitura come su di una registrazione audio, parlando nei due casi rispettivamente di segmentazione in campo simbolico e fonico. Una volta ottenuta una scomposizione del brano in oggetti musicali, la traccia che si ottiene per backtracking partendo dall’insieme degli oggetti musicali fino al tessuto originale e’ un modello dell’idea compositiva.
    Nel caso si disponga della sola registrazione audio bisogna porre l’attenzione sulle caratteristiche sonore che l’esecutore o il compositore stesso usano ai fini espressivi. Dopo di che si può elaborare tale analisi in un modello statistico e adattivo, reti neurali in grado di apprendere il riconoscimento di un attributo per ogni regola scelta.

  10. Definire la dimensione dei dati audio di un file nei seguenti casi:
    - 5 minuti di audio qualità CD-DA (Compact Disc Digital Audio)
    - 3 minuti di audio MP3, bitrate 320k
    - 7 minuti di audio PCM a 4 canali, con parole di quantizzazione di 24 bit e frequenza di campionamento 96KHz


    - 44100 Hz * 16 bit * 2 canali * 300 secondi = 50,47 MB circa (423,36 Mbit)
    - 320 kbps * 180 secondi = 115,2 Mbit circa (pensiamo che i canali non servano)
    - 96000 * 24 bit * 4 canali * 420 secondi = 461,42 MB circa (3,87072 Gbit)

__________________
GET DROPBOX
# il grado di lentezza è direttamente proporzionale all'intensità della memoria;il grado di velocità è direttamente proporzionale all'intensità dell'oblio (Kundera) #
BLOG: Byte Strike
ChRiS :ciao:


Posted by bomber78 on 08-01-2007 15:35:

Grande voodoo, continua così!!!

...solo un appunto sulla domanda 10 del primo compito d'esame (1 min audio MP3 singlechannel 192kbps)

ti hai scritto
192 kbps * 60 * 1 canale = 11,5 Mbit circa

secondo me il numero di canali non entra nel calcolo della dimensione dell'audio MP3, un minuto di MP3 a 192kbps stereo occupa lo stesso spazio di un minuto di MP3 192kbps single channel.
Quello che conta è il bitrate (che fornisce già il dato sulla dimensione).

O no? Correggetemi!!


Posted by Voodoo on 08-01-2007 15:48:

Originally posted by bomber78
192 kbps * 60 * 1 canale = 11,5 Mbit circa

secondo me il numero di canali non entra nel calcolo della dimensione dell'audio MP3, un minuto di MP3 a 192kbps stereo occupa lo stesso spazio di un minuto di MP3 192kbps single channel.
Quello che conta è il bitrate (che fornisce già il dato sulla dimensione).

O no? Correggetemi!!

Fate tutti gli appunti che volete e potete! :D
Forse hai ragione,effettivamente abbiamo già il flusso di dati al secondo,ho il dubbio che anche se abbiamo già il bitrate questo non valga a prescindere dal numero di canali,ma che anch'essi vadano considerati...Facciamo che correggo e ti do retta,penso tu abbia ragione :)

__________________
GET DROPBOX
# il grado di lentezza è direttamente proporzionale all'intensità della memoria;il grado di velocità è direttamente proporzionale all'intensità dell'oblio (Kundera) #
BLOG: Byte Strike
ChRiS :ciao:


Posted by Voodoo on 09-01-2007 11:15:

Altre domande di compiti recenti


  1. Descrivere le tecniche di quantizzazzione lineare floating point del suono con particolare riferimento alle componenti di rumore che le caratterizzano

    Per i segnali non stazionari ad ampia gamma dinamica si può effettuare una quantizzazione codificando il valore di ampiezza del segnale con un codice numerico di lunghezza fissa integrato da un termine moltiplicativo (anch’esso di lunghezza fissa) che ne consente la più opportuna collocazione nella gamma dinamica. È una codifica costituita da una mantissa e da un esponente. L’errore di granularità in questo modo aumenta o diminuisce coerentemente con la gamma dinamica del segnale sorgente. Esistono molteplici codifiche floating-point per il medesimo valore del segnale sorgente,quindi non è una codifica ottimale,ma adatta il rumore di quantizzazione alla dinamica del segnale e comprime la codifica lineare ottenibile con il metodo lineare di quantizzazione precedente.
    Ci sono tre diverse applicazioni della codifica floating-point:
    - istantaneo: per ogni campione del segnale viene calcolata la coppia mantissa-esponente. È ottimale come limitazione del rumore di quantizzazione,ma implica la codifica dell’esponente per ogni mantissa e quindi ha un fattore di compressione non ottimale;
    - Sillabico: il valore dell’esponente varia adattivamente in funzione della gamma dinamica del segnale sorgente; quando l’ampiezza aumenta o diminuisce per un certo intervallo di tempo,viene variato l’esponente;richiede memoria proporzionalmente all’intervallo di tempo massimo considerato,ma consente di non codificare l’esponente se non quando viene variato ,in tal caso dovrà essere reso identificabile mediante codice opportuno.
    - A blocchi: il valore dell’esponente viene codificato ogni N valori del segnale sorgente; richiede memoria per N valori di mantissa per poter calcolare l’esponente ottimale di ogni blocco.

  2. Enunciare il teorema del campionamento.

    L'attività di campionamento prevede la discretizzazione del segnale rispetto al tempo prelevando i valori istantanei di ampiezza a intervalli fissati di tempo. La condizione per poter rappresentare univocamente un segnale sorgente mediante una sequenza di campioni ottenuta prelevando il valore istantaneo di ampiezza del segnale ad intervalli fissati di tempo aventi estensione temporale π/v0 (campionamento uniforme rispetto al tempo), è che il segnale sia a banda limitata, cioè tale che valga F(v) = 0 per |v| ≥ | v0| (trasfromata nulla per valori eccedenti la freq. Massima) per una certa frequenza v0 e che la frequenza di campionamento sia vc ≥ 2 v0 (freq. Nyquist).

  3. Descrivere la funzione del quantizzatore non lineare nella codifica/decodifica del suono nel formato compresso mp3

    Il quantizzatore non lineare codifica numericamente lo spettro ricevuto dal banco di filtri ibrido in funzione dell’importanza di ogni banda di frequenze definita dal modello psicoacustico (se il modello dice che una certa banda viene poco percepita,verrà codificata con pochi bit altrimenti viceversa). Si vuole una quantizzazione dello spettro tale per cui il rumore di quantizzazione introdotto si trovi al di sotto dell’SMR fornita dal modello psicoacustico.

  4. Descrivere la struttura di un frame in un compact disc digital audio

    La codifica dell’informazione nei dischi ottici viene effettuata codificando blocchi di 8 bit di informazione in parole di codifica di 14 bit concatenate tra loro mediante parole aggiuntive di 3 bit (merging bits) ciascuna. I frames sono formati da 588 bit di cui:
    - 24 parole di informazione (formato 14+3 bit) = 408 bit;
    - 8 parole di ridondanza (formato 14+3 bit) = 136 bit;
    - codici di servizio per l’unità di controllo del supporto fisico (44 bit);

  5. Illustrare le il modello di sintesi del suono basato sulla modulazione della frequenza o della fase

    La modulazione di frequenza permette di costruire un suono a partire da una frequenza portante (carrier frequency ωc) per poi variarlo tramite una modulazione di frequenza nel tempo, determinata da un indice di modulazione I(n), che varia i periodi rendendo il segnale non statico. L’arricchimento timbrico viene effettuato introducendo una frequenza modulare ωm . Il segnale risulta dalla combinazione di 2 oscillatori, uno per ωc e uno per ωm. Il peso delle varie armoniche determina l’imprevedibilità del timbro. Il rapporto tra la frequenza portante e la frequenza modulare (c:m ratio) determina appunto il peso delle varie armoniche all’interno del segnale (ωc ± kωm). Per assegnare gli opportuni valori di I(n) e ωm al segnale si utilizzano le funzioni di Bessel.
    Poichè il modello FM da solo permette di avere solo 2 frequenze (più i multipli di ωm), spesso gli si accoppia il modello additivo per avere la possibilità di assegnare al segnale un numero maggiore di armoniche. Il segnale risultante sarà costituito dalla frequenza portante ωc, più le armoniche con frequenze multiple di ωc, più le frequenze modulanti ωm intorno alle frequenze kωc, più le frequenze modulanti ωmm intorno alle frequenze kωc+kωm. Tutte le frequenze maggiori o minori di ?, sono comprese nelle bande laterali e dipendono dall’indice di modulazione I(n). Avendo più oscillatori è possibile usarne alcuni in modo additivo e altri in modo modulante.
    La relazione tra Im e ωm indica la densità di frequenze nello spettro o in una porzione dello spettro o in un intervallo. Combinando in modo additivo i modelli FM visti sopra si possono ottenere i risultati sperati (anche se non sarà facile).


  6. Descrivere in dettaglio i comandi per il controllo del "modo" di trasmissione/ricezione sui canali previsti dallo standard MIDI

    I messaggi Control Change (Channel Voice Message) consentono di gestire in real time i parametri di controllo dei device MIDI. I controller con un ID number compreso tra 122 e 127 servono per identificare i Channel Mode Message.
    I Channel Mode Message consistono di:
    - Il 122 corrisponde a Local Control che attiva (valore 127) o disattiva (valore 0) i tasti di una tastiera che viene messa in slave in un sistema MIDI.
    - Il 123 corrisponde a All Notes Off che serve a spegnere tutti in Note On attivi sul canale MIDI specificato nello Status Byte.
    - Il 124 corrisponde a Omni Mode Off. In questo modo il device risponderà ai messaggi appartenenti ad uno specifico canale MIDI e non a tutti.
    - Il 125 corrisponde a Omni Mode On. In questo modo il device risponderà ai messaggi appartenenti a qualsiasi canale MIDI.
    - Il 126 corrisponde a Mono Mode On. In questo modo il device assegnerà singole "voci" monofoniche ai canali MIDI consecutivi a partire dal suo Basic Channel.
    - Il 127 corrisponde a Poly Mode On. In questo modo il device risponderà polifonicamente ai singoli canali MIDI. Ogni messaggio da 123 a 127 ha come conseguenza un All Note Off.

  7. Descrivere in dettaglio le caratteristiche delle porte di comunicazione previste dallo standard midi

    I connettori montati sui dispositivi sono pentapolari (180 gradi) femmina. I connettori devono essere chiamati "MIDI IN" e "MIDI OUT". I pin 1 e 3 (i più esterni) non sono usati e non devono essere connessi. Il ricevente accetta messaggi MIDI tramite la porta fisica identificata come "MIDI IN" ed esegue comandi MIDI. Il trasmittente produce messaggi MIDI e li trasmette tramite la porta fisica identificata come "MIDI OUT".

  8. Definire la nozione di watermarking

    Audio Watermarking consiste nell’inserire delle informazioni visibili o nascoste (il watermark) all’interno della traccia audio in modo da renderla riconoscibile ed identificabile. Se invisibile, il watermark deve risultare acusticamente impercettibile e tale da non modificare la durata del brano audio infine, il watermark deve essere tale da risultare riconoscibile anche dopo varie degradazioni del segnale audio.

  9. Descrivere il meccanismo e i componenti del convertitore digitale-analogico (DAC).

    l Digital (to) Analog Converter (DAC) è un componente elettronico in grado di produrre una determinata differenza di potenziale in funzione di un valore numerico che viene caricato; ad esempio, ad un valore pari ad 1 corrisponderà una tensione di uscita di 0,1 V, ad un valore di 2 avremo 0,2 V e così via. La tabella di conversione dal valore digitale a quello analogico prende il nome di LUT (Look-Up Table) e può avere caratteristiche proporzionali (come nel precedente esempio), o può seguire un andamento del tutto arbitrario, a seconda del suo impiego. Una larga diffusione ad uso domestico dei DAC si ha nei riproduttori digitali di suoni, nel controllo dell'apertura del diaframma nelle macchine fotografiche, nei controlli digitali (volume, luminosità) dei televisori e in tutte quelle situazioni nelle quali un'informazione numerica deve controllare una grandezza di tipo analogico.
    Si va dagli 8 bit (256 livelli di tensione) dei DAC più semplici (telecomandi ecc...), ai 12 bit per i controlli di precisione (strumenti di misura, multimetri, oscilloscopi), ai 16 bit per i riproduttori musicali ad alta fedeltà (16 bit permettono di riprodurre una dinamica di 96 dB), fino ad arrivare al DVD che, con i suoi 24 bit di risoluzione, consente una dinamica teorica di ben 144 dB.
    All'aumentare della risoluzione, però, corrisponde un maggior numero di elaborazioni per ottenere la tensione d'uscita; in altre parole, più è elevata la risoluzione del DAC e più la sua elaborazione ne risulterà rallentata. Pertanto, la scelta della risoluzione dovrà obbligatoriamente tenere conto della velocità del dispositivo impiegato, rispetto all'utilizzo al quale è destinato.
    A DAC usually only deals with pulse-code modulation (PCM)-encoded signals. The job of converting various compressed forms of signals into PCM is left to codecs.
    (Appunti lezione) Passare dal digitale all'analogico,si passa dalla frequenza di numerini descrivendo una funzione a scalini,in cui le ampiezze istantanee durano per tutto l'intervallino di tempo in cui occorre. Si estendono i valori delle ampiezze per tutto l'intervallino di tempo. Il filtro passa basso (smoothing filter) in questo caso serve a smussare gli spigoli di questa funzione a gradini ma dal punto di vista matematico serve a togliere le componenti in frequenza che eccedono la metà della frequenza di campionamento.
    Più diventa acuto il suono più i coefficienti angolari delle derivate sono più alti,quindi dervitate maggiori,al contrario dei suoni più gravi. Per ottenere uno spigolo basta sommare una certa quantità di sinuosidi. Lo smoothing filter elimina le componenti frequenziali fuori dalla banda di nostro interesse.

__________________
GET DROPBOX
# il grado di lentezza è direttamente proporzionale all'intensità della memoria;il grado di velocità è direttamente proporzionale all'intensità dell'oblio (Kundera) #
BLOG: Byte Strike
ChRiS :ciao:


Posted by SingInTime on 30-01-2007 15:26:

PROPOSTA DI SOLUZIONE X LA DOMANDA 4 DEL COMPITO DI GIUGNO 2004:

Nel segnale audio non compresso l’informazione temporale si ricava moltiplicando il tempo normalizzato per la frequenza di campionamento. In questo modo si otterrà l’istante (assoluto) al quale ogni singolo campione fa riferimento. Per i formati compressi vale un discorso analogo ma l’informazione è impacchettata a frame, è quindi necessario moltiplicare il tempo assoluto ottenuto precedentemente per la lunghezza in campioni del frame, si otterrà così l’istante temporale al quale fa riferimento l’inizio di ogni frame. Nelle sequenze MIDI l’informazione temporale è di tipo relativo e la temporizzazione di ogni evento è codificata dalla distanza rispetto all’evento precedente. La durata di un evento viene determinata dalla comparsa di un altro evento che “spegne” il precedente (es. Note on – note-off). Le pause sono sottointese (assenza di eventi attivi). Ogni quarto è diviso in 24 “unità temporali” la cui durata effettiva viene attualizzata di volta in volta in base a un fattore di scala, dipendente dalla velocità metronometrica. In una partitura, infine, la codifica dell’informazione temporale è interamente relativa: per ogni evento viene definita una durata rappresentabile mendiante una frazione (1/4, 1/8 ecc.) e la scansione temporale viene data dalla loro distribuzione sull’asse orizzontale. Eventi simultanei avranno la stessa “ascissa” nella partitura. I riferimenti metronometrici e i valori di agogica attualizzano i valori relativi di durata e permettono di effettuare la loro conversione in tempo assoluto (ore-minuti-secondi).

Ogni correzione è benvenuta ;)

__________________
...Perché così ho scelto


All times are GMT. The time now is 23:56.
Show all 6 posts from this thread on one page

Powered by: vBulletin Version 2.3.1
Copyright © Jelsoft Enterprises Limited 2000 - 2002.