la corsa agli sconti
la corsa agli sconti
Mercoledì 3 maggio sessione di laurea nel Campus di Cremona del Politecnico di Milano. Saranno undici gli studenti che completeranno il loro percorso con la discussione di laurea e raggiungeranno un ambito traguardo: la Laurea Magistrale in Music and Acoustic Engineering, prima ed unica in Italia interamente dedicata all’ingegneria della musica e dell’acustica.
Dei laureandi di questa sessione, cinque hanno scelto di approfondire la loro preparazione in tema di informatica musicale ed elaborazione del suono, mentre sei si sono concentrati sull’acustica.
Nata nella Città di Stradivari grazie al sostegno del territorio, in particolare della Fondazione Arvedi Buschini e del Comune di Cremona, questa Laurea Magistrale è attrattiva non solo per gli universitari italiani ma anche per i laureati internazionali provenienti da diversi Paesi Extra Ue, con una formazione sia ingegneristica che musicale.
Il Campus di Cremona può vantare infatti un percorso estremamente innovativo che prevede la collaborazione con la Facoltà di Musicologia dell’Università degli Studi di Pavia e del Conservatorio di Milano e la presenza di un Laboratorio di Acustica Musicale, dotato di una camera anecoica, dedicato allo sviluppo di tecnologie avanzate per il miglioramento della tradizione liutaria e di metodologie sistematiche per la valutazione quantitativa delle caratteristiche fisiche e acustiche degli strumenti di liuteria. Due sono gli orientamenti tra cui gli interessati possono scegliere: Acoustic Engineering per chi vuole approfondire il tema dell’acustica musicale e Music Engineering per chi invece vuole focalizzarsi sullo studio dell’informatica musicale e l’elaborazione del suono.
Gli interessati a questo innovativo percorso, in possesso di un titolo di studi triennale italiano, potranno richiederne l’ammissione per il prossimo anno accademico dal 10 luglio al 28 agosto 2023. Le immatricolazioni si chiuderanno il 13 settembre 2023.
L’elenco dei laureati
ALESSANDRI ROBERTO
Titolo tesi: A Deep Learning-based method for Multi-Zone Sound Field Synthesis
Abstract
La riproduzione multizona del campo sonoro è una branca della sintesi dei campi sonori che si occupa di riprodurre diversi campi di pressione in regioni multiple dello spazio. È un problema complesso e impegnativo nell’elaborazione dei segnali acustici che sta diventando sempre più necessario da affrontare. In questa tesi, proponiamo una tecnica per la sintesi del campo sonoro multi-zona basata su una rete neurale profonda. La maggior parte degli approcci attuali si focalizzano sulla riproduzione di un campo sonoro desiderato in una regione luminosa, mentre attenuano l’energia potenziale acustica in una seconda regione scura. Uno dei problemi principali di questi metodi sta nella loro capacità di riprodurre con precisione la zona luminosa, senza mancare di attenuare la seconda regione. Acoustic Contrast Control ha dimostrato di essere la tecnica più performante in termini di attenuazione della zona scura, al costo di un errore elevato nella regione luminosa. Nella tecnica proposta sintetizziamo il campo di pressione stimato attraverso una serie lineare uniforme di altoparlanti e seguiamo gli approcci proposti nei metodi di Pressure Matching e Amplitude Matching, in cui i segnali di azionamento per riprodurre un campo sonoro sono ottenuti minimizzando l’errore di riproduzione in un insieme discreto di punti di controllo. In seguito alla recente adozione diffusa dell’apprendimento profondo nell’elaborazione del segnale acustico, eseguiamo la minimizzazione applicando una rete neurale convoluzionale basata sulla struttura encoder-decoder. Attraverso simulazioni ed esperimenti numerici, confrontiamo le prestazioni dei suddetti metodi con la tecnica proposta e dimostriamo come quest’ultima riesca superare il compromesso tra la precisione della riproduzione nella zona luminosa e il contrasto acustico tra le due regioni obiettivo.
BONFANTINI ADRIANO
Titolo tesi: Deepfake Detection Through Video Volume Rotation
Abstract
Al giorno d’oggi il fenomeno dei “deepfake” rappresenta un tema di forte preoccupazione per la nostra società. Il loro potenziale di alterare la realtà, minaccia gravemente la stabilità e la fiducia sociale mettendo a rischio l’identità dei singoli individui, arrivando perfino a manipolare l’opinione pubblica. I progressi nelle tecniche di deep learning, ed il facile accesso a vasti database gratuiti, hanno difatti reso possibile ad utenti senza particolari competenze tecniche la produzione e la manipolazione di contenuti multimediali. L’uso dannoso di questa tecnologia, che permette di modificare l’identità o le azioni di un individuo all’interno di un’immagine o video, ha portato alla definizione di nuove frodi attraverso il furto d’identità o la consolidazione di “fake news”. Riguardo tale problematica la comunità forense ha sviluppato diverse tecniche implementando sistemi rilevatori capaci di verificare l’integrità e l’autenticità di contenuti multimediali, al fine di prevenire tali abusi. Lo stato dell’arte è rappresentato da soluzioni di deep learning come Convolutional Neural Networks (CNN) che spesso analizzano i video a livello di frame. Altri approcci cercano di mettere in evidenza le incoerenze nell’evoluzione temporale dei video deepfake, sia con reti neurali ricorrenti che con modelli 3D. Tuttavia, l’evoluzione temporale viene modellata come sequenze di immagini statiche. In questo lavoro proponiamo un sistema di rilevazione basato su un’analisi multi-prospettica. Considerando un video come un volume costituito da pixel, una semplice rotazione permette di definire nuove “viste” dove l’analisi dell’evoluzione temporale può permettere di catturare “tracce” discriminanti per la classificazione dei deepfake. Il rilevatore proposto sfrutta la struttura computazionale delle reti convoluzionali 3D, capaci di combinare le caratteristiche spazio-temporali dei dati volumetrici in ingresso. La combinazione dei due approcci definisce un sistema di rilevamento inedito capace di apprendere strutture di dati trascurate dai metodi che considerano i video come semplici sequenze di fotogrammi. Vengono presentati due esperimenti principali, caratterizzati da una pipeline di processi leggermente modificata, al fine di valutare gli effetti derivanti dalla variazione della risoluzione dei dati in ingresso. In aggiunta, viene presentato un modello di localizzazione temporale a livello video, dove diverse stategie di campionamento assieme al rilevatore proposto, permettono l’identificazione di frame con manipolazioni più evidenti, quindi caratterizzanti dal punto di vista della classificazione.
CATTANEO LUCA
Titolo tesi: Direction of Arrival Estimation using Convolutional Recurrent Neural Network with Relative Harmonic Coefficients and Triplet Loss in Noisy and Reverberating Environments
Abstract
La localizzazione di sorgenti sonore in ambienti rumorosi e riverberanti è ancora un problema aperto e complesso nel campo dell’elaborazione dei segnali. Tipicamente, l’identificazione della direzione di arrivo di un suono viene eseguita a partire da una registrazione multicanale. L’informazione della posizione di una sorgente sonora può essere fondamentale in diverse applicazioni, come il riconoscimento di una voce o di un altoparlante, sorveglianza audio, realtà virtuale e aumentata. Recenti approcci al problema sono basati su modelli che sfruttano una particolare trasformazione dei segnali nel dominio delle armoniche sferiche, chiamati coefficienti armonici relativi. Altri recenti approcci propongono tecniche di deep learning per affrontare la stima della posizione della sorgente sonora, apprendendo le sue caratteristiche da reti neurali. In questo elaborato, proponiamo un nuovo metodo per la classificazione della direzione di arrivo esplorando la rete neurale convoluzionale ricorrente attraverso l’impiego dei coefficienti armonici relativi. In modo da classificare simultaneamente orientamento e ed elevazione, la parte finale della rete convoluzionale ricorrente è composta da due reti fully connected indipendenti. Successivamente, presentiamo una rete neurale siamese allenata con la tecnica nota come triplet loss. Il principale vantaggio dell’allenamento con triplet loss è che la rete apprende una rappresentazione strutturata dei dati, organizzando i campioni della stessa classe vicini tra loro e allo stesso tempo separando i campioni di classi diverse. A tal proposito, abbiamo dimostrato che impiegando la triplet loss nell’allenamento della rete neurale, la rete è capace di localizzare la sorgente acustica in modo efficace anche in simulazioni con un basso rapporto segnale-rumore e un alto tempo di riverberazione. Gli esperimenti effettuati confermano che l’approccio proposto in questo elaborato producono una rappresentazione dei dati meno sparsa, implicandone una superiore interpretabilità. Infine, le prestazioni del metodo proposto nella localizzazione della sorgente sono confrontate con i risultati di metodi convenzionali, esibendo una maggiore robustezza in presenza di riverbero e rumore.
CERIOLA FEDERICO
Titolo tesi: Active noise control in ducts with secondary sources synthesized through exact boundary conditions
Abstract
Le tecniche per il controllo del rumore in cavità acustiche sono da molto tempo tematiche di interesse nel campo della ricerca. Il problema è strettamente legato all’ottimizzazione del comfort acustico in ambienti di lavoro e di intrattenimento. In questo contesto risultano particolarmente interessanti le problematiche relative al trattamento acustico degli impianti di ventilazione. Il trattamento di questi rumori prevede per lo più tecniche passive legate al design degli impianti. A queste tecniche si aggiunge il controllo attivo del rumore (ANC), il quale viene impiegato per il raggiungimento di migliori performance. L’algoritmo che viene maggiormente impiegato è il Filtered X-LMS, noto per la sua efficacia e robustezza. Tuttavia, recentemente in ambito accademico sperimentale stanno emergendo le tecniche acustiche di cloaking ed holography. Esse consentono di mascherare acusticamente un oggetto o ricreare la sua presenza in ambiente controllato. Queste tecniche posso essere classificate nell’ambito del controllo attivo del rumore. Lo scopo di questa tesi è quello di sviluppare una logica di controllo attivo del rumore all’interno di un condotto attraverso la tecnica di olografia acustica. Nello specifico, si vuole sviluppare una parete virtuale perfettamente riflettente per impedire la propagazione del rumore nel condotto. Nello svolgimento del documento viene convalidata la teoria per la definizione delle Exact Boundary Conditions (EBC) sulla superficie che avvolge l’oggetto virtuale scatterante. Successivamente vengono proposte delle simulazioni in due scenari: il primo è un ambiente 2D per la validazione della teoria, il secondo è un modello 3D di un tubo di Kundt che è stato di ispirazione per la nostra simulazione. Infine, viene modellato un caso reale, in cui le EBC vengono riprodotte da un set di sorgenti secondarie, le quali simulano il comportamento di loudspeaker in condotti dedicati che intersecano il condotto principale. I risultati sono promettenti ed offrono lo spunto per una futura validazione mediante l’implementazione di un setup di laboratorio.
CILLO PIERFRANCESCO
Titolo tesi: Data-Based Discrepancy Modeling for a Reduced-Order Finite Element Model of a Classical Guitar
Abstract
Modelli ad elementi finiti ad alta fedeltà sviluppati di recente si rivelano essere un metodo all’avanguardia per una maggiore comprensione del comportamento vibrazionale di strumenti musicali. Nonostante la comprovata utilità di questi modelli virtuali, alcuni tipi di analisi, come ottimizzazione o identificazione dei parametri, richiedono numerose simulazioni, il che comporta lunghi tempi di calcolo. Il projection-based parametric model order reduction risulta essere un potente strumento capace di ridurre significativamente il tempo di calcolo dei modelli a elementi finiti, preservando nel mentre la dipendenza dai parametri. Tuttavia, questo approccio richiede la conoscenza delle matrici del sistema complete, che spesso sono accessibili solamente in misura limitata. Per questo motivo, il modello originale potrebbe richiedere una leggera modifica di alcune sue caratteristiche, come l’accoppiamento acustico-strutturale o condizioni al contorno radiative. Di conseguenza, il modello di ordine ridotto porta con sé una discrepanza sistematica rispetto al modello originale. Per superare questa problematicità, il presente lavoro di tesi propone un metodo di modellizzazione della discrepanza capace di approssimare l’effetto della condizione al contorno radiativa, dipendente dai parametri, in un modello agli elementi finiti di una chitarra classica. Questa condizione al contorno non è accessibile da Abaqus, il software per analisi agli elementi finiti impiegato. Utilizzando questo metodo, un modello di ordine ridotto projection-based viene migliorato attraverso modelli data-driven del termine d’errore nell’approssimazione delle autofrequenze e autovettori. I modelli data-driven utilizzano support vector machines e reti neurali artificiali per modellizzare la discrepanza. Questo approccio si dimostra essere effettivo nella riduzione dell’errore delle autofrequenze presente nel modello iniziale, nonché nel correggere le sue forme modali, rendendole più simili a quelle del modello originale. I risultati ottenuti si dimostrano essere più accurati. Il metodo presentato avvia ad un cammino promettente verso la produzione di modelli di ordine ridotto più accurati. Ciò risulta in previsioni più precise nell’analisi di strumenti musicali, con costi computazionali contenuti.
GUALTIERI FILIPPO
Titolo tesi: A cascade approach for speech enhancement based on deep learning
Abstract
La profonda diffusione di dispositivi e servizi basati sull’interazione vocale ha portato a una crescente domanda di algoritmi di SE robusti e adattivi. Questi algoritmi devono funzionare in una vasta gamma di scenari, come diversi tipi di rumore e SNRs, e tener conto dei vincoli imposti dai dispositivi su cui sono eseguiti. Tra le limitazioni più stringenti vi sono per esempio la bassa capacità computazionale e la disponibilità di un singolo ingresso microfonico. Le soluzioni a basso costo computazionale esistenti in letteratura sono tipicamente non phase-aware e lasciano invariata la fase del segnale durante il processo di SE. Le soluzioni phase-aware sono invece tipicamente approcci onerosi. In questa tesi, proponiamo una rete in due stadi con un approccio non phase-aware leggero e uno phase-aware più esigente dal punto di vista computazionale per eseguire SE a singolo canale basato su deep learning. Il primo stadio applica una maschera reale al segnale, il secondo invece migliora la qualità del parlato applicando un filtraggio complesso nel dominio tempo-frequenza. L’utilizzo di features percettive per la sottorete a maschera reale e la struttura a due stadi riducono l’onere computazionale della rete e aumentano il controllo sulla quantità di SE applicata ponendo le basi per esplorare soluzioni che implementano un passaggio in tempo reale tra SE non phase-aware e phase-aware in base all’attuale SNR. Abbiamo condotto test oggettivi e soggettivi in diverse condizioni di rumore e riverbero, dimostrando che la nostra soluzione risulta competitiva con baseline più complesse in termini di parametri e FLOPs, sia secondo le metriche di qualità oggettive che le valutazioni soggettive.
LODETTI LAURA
Titolo tesi: Parametric modeling and analysis of cello bridges with Finite Element Methods
Abstract
Nel violoncello, così come negli altri strumenti della famiglia degli archi, il ponticello è la parte che trasmette alla cassa armonica l’energia vibrazionale delle corde, e di conseguenza è determinante per il suono di tutto lo strumento. Il ponticello deve essere sufficientemente leggero da trasmettere in modo efficace il movimento delle corde, ma allo stesso tempo deve essere rigido e resistente al loro carico statico. Inoltre il legno utilizzato per i ponticelli è un materiale naturale che mostra alta variabilità nelle sue proprietà elastiche. Nella storia degli strumenti ad arco si sono succeduti molti tipi di ponticelli diversi, fino ad arrivare, ai primi del 1800, ai due modelli oggigiorno più diffusi: il modello francese e il modello belga. Recentemente, a Cremona, in Italia, la famiglia Amorim, famiglia di liutai, ha ideato e creato un nuovo modello di ponticello per il violoncello. Lo scopo era quello di ottenere una risposta più veloce e un suono più chiaro e ben focalizzato. Prendendo ispirazione dal loro lavoro, studiamo le conseguenze della forma delle gambe del ponticello sul suo comportamento statico e vibrazionale. Per farlo, costruiamo un modello parametrico del ponticello e successivamente utilizziamo il Metodo agli Elementi Finiti per effettuare l’analisi statica, l’analisi modale e ricavare la risposta in frequenza. Inoltre, ricaviamo sperimentalmente con un martello a impatto la Funzione di Risposta in Frequenza di alcuni campioni di legno di acero di alta qualità, destinati alla costruzione di ponticelli di violoncello. I risultati mostrano che la forma del ponticello può effettivamente essere utilizzata per controllare la risposta statica e vibrazionale del violoncello e di conseguenza per modificarne il suono.
MARIN PASIN DAVIDE
Titolo tesi: A Wave Digital Extended Fixed-Point Method for Virtual Analog Applications
Abstract
La modellazione virtuale di circuiti analogici (“Virtual Analog”) si riferisce alla pratica di emulare strumentazione audio analogica digitalmente. Nel corso degli ultimi anni sono stati proposti diversi metodi iterativi da utilizzare per la soluzione di circuiti audio con più di una non linearità per applicazioni “Virtual Analog”. Per esempio, nel dominio dei filtri ad onda digitale (“Wave Digital”), il metodo al punto fisso noto come “Scattering Iterative Method” (SIM) è in grado di risolvere circuiti composti da una giunzione topologica e molteplici elementi non lineari, facendo uso di risolutori monodimensionali. Inoltre, questo stesso tipo di struttura può essere emulato servendosi di un approccio NewtonRaphson (NR) per il dominio Wave Digital, il quale porta ad implementazioni con una maggiore velocità di convergenza. In questa tesi, proponiamo un metodo a punto fisso detto “Extended Fixed-Point” (EFP) per il dominio Wave Digital, il quale presenta sia SIM che NR come suoi casi particolari. Inoltre, il metodo proposto permette di derivare un numero potenzialmente infinito di nuovi metodi iterativi che si collocano tra SIM e NR. Questo risultato può essere ottenuto dimensionando l’ordine di questo metodo, che a sua volta determina le prestazioni per quanto riguarda il numero massimo e medio di iterazioni svolte e il “Real-Time Ratio” (RTR). Vengono forniti diversi esperimenti per studiare queste prestazioni, a diversi ordini, per la soluzione di strutture Wave Digital, che contengano una giunzione topologica, reciproca o non reciproca. In aggiunta, il metodo è stato messo ulteriormente sotto prova, applicando ai valori ottimi delle resistenze di porta degli elementi una certa deviazione percentuale, dimostrando come tale valore sia di cruciale importanza per ottenere le migliori prestazioni possibili. L’approccio EFP viene poi applicato per la simulazione di tre diversi circuiti audio, in particolare un ring modulator, un clipper asimmetrico a diodi ed un filtro Sallen-Key. Per alcune configurazioni, il metodo EFP risulta essere comparabile sia con SIM che con NR, e per altre addirittura superiore in termini di prestazioni per quanto riguarda il numero massimo/medio di iterazioni o RTR, rendendolo promettente per applicazioni “Virtual Analog”.
ORIO REBECCA
Titolo tesi: Pivoting panels as variable acoustic elements to optimise the Reverberation Time in the Roberto de Silva Theatre
Abstract
L’obbiettivo di questo studio è descrivere l’andamento del Tempo di Riverberazione (RT) all’interno del teatro polifunzionale ‘Roberto de Silva” situato a Rho (MI), e capire in che modo i pannelli pivotanti, presenti sulle pareti laterali della sala, possono essere utilizzati per modulare la risposta acustica nella configurazione Concerto. Per questo scopo, 124 misurazioni sono state effettuate, analizzando differenti configurazioni di pannelli in differenti ricevitori. Inizialmente è stata eseguita un’analisi globale per caratterizzare l’andamento del valor medio del Tempo di Riverberazione al variare delle varie configurazioni previste per i pannelli pivotanti. In seguito si è studiato l’impatto di ogni singola configurazione di pannelli pivotanti su ciascun ricevitore, evidenziando le caratteristiche peculiari principali e individuando l’ordine di apertura delle configurazioni di pannelli per ridurre gradualmente il RT in quella posizione specifica. Si definisce una deviazione percentuale e si considera la differenza appena percettibile (Just Noticeable Difference JND) per valutare la sensibilità del parametro acustico. Successivamente, per ogni configurazione di pannelli pivotanti, si applica una procedura simile, non più per ogni singolo ricevitore ma per “macro” aree del teatro evidenziando anche le differenze fra ricevitori all’interno della stessa zona e calcolando la singola deviazione rispetto al RT medio globale precedentemente ricavato. Dalla ricerca emerge che, anche se i pannelli agiscono in modo differente sul RT, a seconda della loro posizione o della posizione del ricevitore, per cambiare la percezione acustica del pubblico una significativa porzione di pannelli pivotanti deve essere aperta. I pannelli sono efficienti nel range delle medie frequenze (500-2000 Hz), mentre a basse frequenze la loro geometria amplifica le riflessioni sonore. I pannelli più efficienti risultano essere quelli centrali, ma tutte le configurazioni considerate permettono il raggiungimento di un RT perfettamente in linea con quello che ci si aspetta da una sala concerto, ciò significa che il campo acustico dell’ambiente si avvicina ad un ipotetico campo diffuso.
PICCIRILLO JACOPO
Titolo tesi: Unsupervised Anomalous Sound Detection Under Domain Shift Condition
Abstract
La sorveglianza preventiva dei macchinari industriali è un argomento di grande interesse per le industrie intelligenti e controllate da AI. Fra i molti approcci, il rilevamento di anomalie sonore (ASD) sta ottenendo molta popolarità grazie alla sua natura non invasiva. Negli ultimi anni in particolare, c’è stato molto interesse in approcci ad ASD tramite deep learning, di solito in maniera non supervisionata, utilizzando solo suoni normali durante l’allenamento del modello. Questo perché i suoni anomali occorrono in situazioni rare e sono altamente variabili. Un grande problema con le tecniche di ASD è anche che vengono spesso implementate in ambienti differenti da quelli in cui il modello è allenato. Questo è il problema di cambiamento di dominio, in cui le caratteristiche acustiche di dati di allenamento e dati di test sono diverse. Questo lavoro tratta il problema di ASD in presenza di cambiamento di dominio. Un approccio popolare a questo problema consiste nell’estrarre features usando un deep feature extractor e conseguentemente allenare un estimatore di densità sulle feature estratte che dia in output una probabilità di anomalia. Il suono di input è considerato anomalo se la probabilità di anomalia è sopra una certa soglia. Partendo da un’architettura già esistente, questo lavoro da due contributi. Innanzitutto, una tecnica di riduzione della dimensionalità è introdotta che mira a ridurre l’alta dimensionalità della rappresentazione dei dati forniti in input all’estimatore di densità. In particolare, la tecnica ha il vantaggio di automatizzare il processo di determinazione del numero di dimensioni da preservare. Viene mostrato che la tecnica di riduzione della dimensionalità è superiore agli approcci comuni di riduzione della dimensionalità come l’analisi della componente principale nella maggior parte dei casi. In seguito, un ulteriore insieme di dati è stato raccolto registrando un braccio robotico usato per manifattura PCB in camera anecoica. Questi dati sono stati poi integrati con i dati pre-esistenti per verificare che la performance sulla nuova macchina fosse accettabile. Gli esperimenti mostrano che l’architettura performa meglio sui nuovi dati.
SCIARRONE BRUNO
Titolo tesi: Topologic Optimization of Magnetic Circuits in Loudspeakers
Abstract
L’analisi ad elementi finiti è diventato uno strumento ampiamente utilizzato nello sviluppo di trasduttori, permettendo nella fase di design di simulare fedelmente il risultato finale evitando costi extra di manifattura o di realizzazione di prototipi fisici. Questo lavoro di tesi è stato svolto in Faital S.p.a, azienda leader europea nella produzione di altoparlanti per l’automotive e per l’audio professionale, in cui propongo una metodologia di ottimizzazione per il circuito magnetico di tre diversi modelli di altoparlanti, tramite l’utilizzo di modelli FEM 2D, analizzando la performance tramite tre diversi indicatori scelti a priori, riguardanti la curva di Bl, la simmetria di quest’ultima e la quantità di materiale utilizzato. Tutti i modelli FEM sono settati in COMSOL Multiphysics ® e conseguentemente i risultati grafici sono estratti dal software. Il risultato proposto può essere considerato come una prima fase del processo di ottimizzazione completo per il circuito magnetico, in quanto altre variabili costruttive non vengono prese in considerazione, come la dimensione del magnete o la larghezza del traferro, quindi il risultato finale lascia spazio a migliora- menti, che possono essere effettuati in una seconda fase di design, dopo la validazione dei risultati presentati in una successiva fase di prototipazione.