Cronaca

Music and Acoustic Engineering,
le laureee dell'internazionalità

Si avvicina un’altra sessione di laurea nel Campus di Cremona del Politecnico di Milano. Domani mercoledì 6 ottobre si terrà l’appello di laurea del Corso di Laurea Magistrale in Music and Acoustic Engineering, prima ed unica in Italia interamente dedicata all’ingegneria della musica e dell’acustica.

Nata nella Città di Stradivari grazie al sostegno del territorio, in particolare della Fondazione Arvedi Buschini e del Comune di Cremona, questa nuova Laurea Magistrale è attrattiva non solo per gli universitari italiani ma anche per i laureati internazionali provenienti da diversi Paesi Extra Ue, con una formazione sia ingegneristica che musicale.

In questa sessione emerge più che mai l’impronta internazionale di questo Corso di Laurea Magistrale, infatti, tra gli 8 studenti che domani completeranno il loro percorso con la discussione di laurea e raggiungeranno un ambito traguardo, ci saranno ben 2 studenti internazionali: Ravillion Aliette Marie Veronique, proveniente da Ecole Centrale de Nantes, che conseguirà una doppia laurea e Pala Metehan che discuterà la sua tesi sull’Automatic DJ Mix Generation in video collegamento dalla Turchia.

“Il Campus di Cremona può vantare un percorso estremamente innovativo che prevede la collaborazione con la Facoltà di Musicologia dell’Università degli Studi di Pavia e del Conservatorio di Milano e la presenza di un Laboratorio di Acustica Musicale, dotato di una camera anecoica, dedicato allo sviluppo di tecnologie avanzate per il miglioramento della tradizione liutaria e di metodologie sistematiche per la valutazione quantitativa delle caratteristiche fisiche e acustiche degli strumenti di liuteria” fanno sapere dalla facoltà. “Due sono gli orientamenti tra cui gli interessati possono scegliere: Acoustic Engineering per chi vuole approfondire il tema dell’acustica musicale e Music Engineering per chi invece vuole focalizzarsi sullo studio dell’informatica musicale e l’elaborazione del suono”.

Inoltre il Polo di Cremona supporta questo percorso accademico con 3 borse di studio riservate agli immatricolati al Corso di Laurea Magistrale in Music and Acoustic Engineering orientamento Acoustic. Requisito per accedere al bando: i candidati devono aver conseguito un titolo di studio italiano valido per l’ammissione alla Laurea Magistrale con una votazione minima uguale o equivalente a 100/110. Gli interessati dovranno presentare una domanda di ammissione compilando il form di adesione disponibile fino al 29 ottobre 2021 sul sito del Polo di Cremona. Per maggiori informazioni è possibile consultare il sito: www.polo-cremona.polimi.it

Alcune delle tesi in discussione

ANTONACCI GABRIELE
Titolo tesi: A model selection method for room shape classification based on mono speech signals
Abstract
Ogni acquisizione audio contiene grandi quantità di tracce forensi. Dall’analisi di registrazioni vocali è possibile estrarre sia informazioni relative al dispositivo con qui l’acquisizione è effettuata che informazioni sulle caratteristiche dell’ambiente in cui la registrazione è effettuata. In ogni caso, gli studi nei campi di analisi acustica ed audio forense gettano luce sull’assenza di tools per la classificazione geometrica basata su segnali vocali riverberanti. Nonostante nella letteratura siano stati indagati algoritmi di analisi acustica per stimare parametri come volume, tempo di riverberazione e tipo di ambiente (p. es. se una piccola stanza, una hall od uno stadio), c’è ancora vasto margine di miglioramento. Questo studio mira ad amplicare l’insieme dei parametri di una stanza che possono essere presi in considerazione per effettuare un’analisi audio. In dettaglio, introduce l’argomento di classificazione della forma di una stanza basata su segnali vocali riverberanti. Il metodo proposto fissa delle bande di volume e di tempo di riverberazione per migliorare le performance dei classificatori di forma e per stabilire una relazione tra le metriche nella stima del volume e nella stima della geometria. Per poterlo fare, volume e tempo di riverberazione sono stimati in via preliminare per determinare la stima di un indice di banda. Dipendentemente da questo indice, siamo in grado di determinare il miglior modello per la classificazione della forma. Questo stimatore è usato per asserire se un segnale vocale sia o meno stato acquisito in una stanza di una determinata forma. La nostra ricerca mostra risultati promettenti anche nel caso di segnali vocali riverberanti. In ogni caso, riscontriamo difficoltà nel gestire stanze di piccole dimensioni. Futuri sviluppi potrebbero contemplare l’introduzione di estrattori di regioni di decadimento libero accurati o, ancor meglio, l’uso di time-aware neural networks.

GIGANTI ANTONIO
Titolo tesi: Speaker-Independent Microphone Identification via Blind Channel Estimation in Noisy Condition
Abstract
Negli ultimi anni, abbiamo assistito ad un cambiamento radicale nella modalità di scambio di informazioni, passando da semplici comunicazioni testuali all’utilizzo di elementi multimediali come audio e/o video messaggi. Questa tendenza è stata facilitata dalla crescente velocità delle connessioni di rete nonché dal basso costo dei telefoni cellulari. Come spesso accade però, la tecnologia va di pari passo con l’illegalità, aprendo le porte a possibili scenari che prima d’ora erano impensabili. Dal furto d’identità, alla manipolazione volontaria, le registrazioni vocali sono spesso vittime di manomissioni atte a distorcere il loro reale contenuto. Non è un caso se nell’analisi forense di file multimediali, il settore dell’audio forense stia raccogliendo un crescente interesse tra la comunità scientifica, con un numero sempre maggiore di pubblicazioni riguardanti tecniche per l’analisi delle registrazioni audio. In questo contesto, un problema rilevante nelle indagini forensi è quello dell’identificazione del dispositivo. L’obiettivo finale è quello di recuperare informazioni utili per risalire al dispositivo che ha effettuato la registrazione vocale presa in analisi. Il dispositivo lascia sempre delle tracce intrinseche su ogni sua registrazione durante la fase di acquisizione e in letteratura sono stati proposti diversi metodi per estrarle. Nell’ottica forense, queste informazioni costituiscono l’impronta (o firma) del dispositivo adottato e verranno utilizzate come elemento discriminante nel processo di identificazione. In questa tesi proponiamo un metodo per l’identificazione del dispositivo partendo da una registrazione vocale. L’impronta considerata si basa su una stima delle modifiche spettrali applicate dal microfono del dispositivo in fase di acquisizione. Questa procedura è nota in letteratura come stima del canale. Il processo di estrazione di questa impronta necessita però di una registrazione audio che sia il più possibile esente da componenti esterne, come il parlato o rumore. È ben noto infatti come questi segnali provochino un netto deterioramento della stima, con la conseguente diminuzione dell’affidabilità nell’identificare il dispositivo utilizzato. Per questo motivo, ci concentriamo sul complesso problema dell’identificazione del dispositivo in condizioni rumorose sfruttando tecniche di denoising basate su reti neurali. Nel validare l’efficacia del metodo, formuliamo il problema in uno scenario closed-set, dove il numero di dispositivi possibili è limitato e noto in precedenza. I risultati ottenuti confermano la nostra formulazione teorica, ottenendo un notevole incremento rispetto al modello adottato come riferimento, migliorando quindi l’affidabilità finale nell’identificazione del dispositivo di acquisizione in presenza di registrazioni vocali corrotte da rumore.

GINO JACOPO
Titolo tesi: Audio-Video Deepfake Detection through Emotion Recognition
Abstract
Negli ultimi anni le tecniche per generare contenuti multimediali sintetici hanno avuto un notevole miglioramento. Con i potenti strumenti forniti da applicazioni di intelligenza artificiale, è ora possibile generare materiali audiovisivi in modo così accurato da poter ingannare i sensi umani di vista e udito. Questi nuovi media generati da macchine vengono chiamati deepfake. Nonostante i deepfake possano dare vita a nuovi stimolanti scenari futuri, questi media hanno da subito suscitato preoccupazioni sia etiche che legali. Permettendo di alterare le identità vocali e visive delle persone ritratte, alcuni dei utilizzi potrebbero avere gravi conseguenze come la diffusione di fake news, falsificazione di prove legali, nuove forme di frode e ricatto. È quindi indispensabile e urgente sviluppare sistemi di rilevamento dei deepfake che siano attendibili e robusti, per l’individuo e la società. In questa tesi, proponiamo un metodo multimodale per il rilevamento dei deepfake, basato sull’analisi simultanea di audio e video. L’ipotesi su cui si basa questo lavoro è che l’intelligenza artificiale sia in grado di ricreare nei soggetti rappresentati aspetti di basso livello, ma non riesca a riprodurre aspetti più complessi come le emozioni. Per fare ciò abbiamo adattato a questo obiettivo tecniche di riconoscimento automatico delle emozioni basate su reti neurali. I risultati mostrano che le tecniche basate sull’audio individuano i media alterati più accuratamente delle tecniche basate sul video. Tuttavia, i migliori risultati nella classificazione vengono ottenuti con un approccio multimodale, quando consideriamo le modalità audio e video assieme.

LANDINI ELEONORA
Titolo tesi: Synthetic Speech Detection through Convolutional Neural Networks in Noisy Environments
Abstract
Oggigiorno, i deepfake sono conosciuti molto bene da molte persone, a partire da esperti di analisi forense fino a ragazzi sui social media. I social network hanno un importante ruolo nella diffusione di questi contenuti multimediali, e per una ragione. Deepfake di video, immagini e registrazioni forniscono un ottimo intrattenimento e incuriosiscono facilmente molti grazie alle impressionanti somiglianze che hanno rispetto alle persone che imitano. Al genuino interesse su questi file per la creazione di contenuti di intrattenimento, dobbiamo aggiungere quello guidato dagli scopi malevoli per cui si può utilizzare questa tecnologia. A causa di questi fini illegali, fenomeni come lo scambio d’identità hanno il potenziale di diffondersi molto rapidamente in tutto il mondo, con un veloce incremento nella creazione di algoritmi per la sintesi di contenuti multimediali. Inoltre, i continui sviluppi nel campo del Machine Learning sono un potente strumento per questi intenti. Comprensibilmente, l’aumento di tecniche per generare deepfake coincide con maggiori indagini per il rilevamento di file multimediali creati artificialmente. La letteratura riguardante il rilevamento deepfake video è la più ricca in questo ambito. Al contrario, l’individuazione di deepfake audio è meno trattata e necessita di maggiore attenzione. In questa tesi proponiamo un metodo per la classificazione di tracce vocali in ambienti rumorosi basato su reti neurali convoluzionali (CNN). Il sistema proposto è composto da una DnCNN usata come riduttore del rumore preliminare seguita da una rete convoluzionale VGGish che agisce come classificatore. Le due reti sono allenate congiuntamente in una struttura end-to-end. I risultati confermano le nostre aspettative, mostrando che l’approccio end-to-end supera di gran lunga soluzioni basate su riduzione del rumore disgiunta dalla classificazione.

LEONZIO DANIELE UGO
Titolo tesi: Audio splicing detection and localization based on recording device cues
Abstract
Negli ultimi anni, abbiamo assistito a una crescente diffusione della tecnologia. L’intelligenza artificiale e l’apprendimento automatico fanno ormai parte della nostra vita quotidiana. La disponibilità di queste tecniche sofisticate, anche sul mercato consumer, ha reso possibile a chiunque creare contenuti multimediali a livello professionale. Questo ha anche creato un nuovo tipo di problema da affrontare: è diventato molto facile creare contenuti falsi molto realistici che possono essere utilizzati per trasmettere messaggi mirati sfruttando la notorietà di alcune persone. Per questo motivo, la possibilità di verificare l’affidabilità di un oggetto multimediale sta diventando di fondamentale importanza, soprattutto se questi file vengono utilizzati come prove nei processi. Il problema che abbiamo affrontato in questa tesi va in questa direzione. Il nostro obiettivo è quello di determinare se una traccia audio in analisi è stata manipolata attraverso lo splicing. Inoltre, se una registrazione viene rilevata come manipolata, identifichiamo dove è stata modificata. Il metodo che proponiamo si basa su una rete neurale convoluzionale (CNN) per estrarre alcune caratteristiche dalla registrazione audio. Dopo aver estratto le caratteristiche, determiniamo attraverso un algoritmo di clustering se c’è stata una manipolazione. Infine, identifichiamo il punto in cui la modifica è stata introdotta con una tecnica basata sulla distanza. I risultati ottenuti sono molto soddisfacenti in quanto siamo in grado di raggiungere il 98% di accuratezza per la fase di identificazione e un errore molto piccolo per la localizzazione su un set di dati che abbiamo costruito appositamente per studiare questo problema.

PALA METEHAN
Titolo tesi: RoboDJ: Automatic DJ Mix Generation using Spotify Web API and Machine Learning Methods
Abstract
Attualmente tutto ciò che concerne la musica sta diventando computerizzato grazie all’impatto crescente delle tecniche di Machine Learning. Sistemi automatici di consigli musicali, creatori automatici di playlist, servizi automatici di mastering per brani mixati e sistemi automatici di generazione accordi sono solo alcuni esempi. Si avverte, tuttavia, una carenza di studi sulla generazione automatica di mix per DJ ovvero mix senza interruzioni a partire dai singoli brani: infatti, di recente, la questione è emersa. Nello studio qui proposto si fondono diverse tecniche già esistenti per produrre un sistema automatico di generazione di mix che richieda un minimo intervento umano: sia utenti comuni sia DJ esperti lo possono utilizzare per sperimentare nuove metodiche e prendere ispirazione dai mix prodotti. In particolare, si fa largo uso di diverse tecniche di Machine Learning e della API web di Spotify allo scopo, prima di tutto, di costruire un metodo di classificazione dei preset predefiniti e poi di generare un mix per DJ lungo un’ora che suoni come se fosse mixato da un DJ reale. Si tratta di come i dataset sono acquisiti nel processo di apprendimento ed i relativi modelli sono costruiti, di come i cue points sono estratti e le tracce ordinate, della realizzazione di diversi tipi di dissolvenza ed infine del design dell’interfaccia grafica. Per concludere, ci si occupa anche delle valutazioni degli utenti e si preannunciano potenziali sviluppi.

RAVILLION ALIETTE MARIE VERONIQUE
Titolo tesi: A comparison of Best-Worst Scaling and Rating Scale for timbre characterisation
Abstract
L’annotazione soggettiva dei suoni è un’area chiave di attenzione nel campo del timbro. Le scale di valutazione (RS) sono il metodo più usato per l’annotazione dei dati, anche se presentano gravi limiti legati alle distorsioni della scala. Il metodo Best-Worst-Scaling (BWS) ha dimostrato di essere un’alternativa affidabile alle scale di valutazione su elementi semantici e visivi, ma il confronto non è mai stato applicato a un corpus audio. Questo lavoro si concentra sul confronto dei metodi RS e BWS applicati alla caratterizzazione del timbro dei suoni strumentali. I nostri risultati mostrano in primo luogo che entrambi i metodi sono comparabili in termini di prestazioni (cioè validità e affidabilità), anche se questo dipende fortemente dal numero di partecipanti al compito. In secondo luogo, i risultati indicano che entrambi i metodi sono comparabili in termini di ergonomia e, in terzo luogo, che il BWS è più robusto rispetto alla complessità del compito rispetto al RS. Questo studio rivela anche che i dati ottenuti con la RS e il BWS portano informazioni diverse. Infine, questo lavoro richiede un uso più ampio del Best-Worst-Scaling nei compiti di annotazione dei suoni soggettivi.

 

© Riproduzione riservata
Caricamento prossimi articoli in corso...