Una filigrana (forse) ci salverà

Come un sistema creato nel XIII a Fabriano per certificare l'unicità della carta locale è finito a essere usato per indicare l'origine artificiale di audio e altri contenuti. Ma funziona davvero?

Jul 03, 2024

🌟 Ci segui già sui social? Trovi Questioni d’orecchio su Instagram e su LinkedIn.

❤️️ Se questa newsletter ti piace, spargi la voce e clicca sul cuore alla fine.

L’introduzione è l’ultima parte della newsletter che scrivo. Anche quando la scrivo in anticipo, poi succede sempre che alla fine cambio idea. E improvviso.

Sono molto brava a improvvisare. Probabilmente perché sono altrettanto disorganizzata. È un po’ come per le persone cieche, che in genere hanno un udito più raffinato della media (peraltro anche io sento molto meglio di quanto veda).

Insomma, la mia capacità di improvvisazione compensa la mia scarsa attitudine all’organizzazione.

Quando sembra tutto perduto, spesso riesco a salvarmi proprio grazie a un guizzo dell’ultimo secondo. E, se il guizzo o il colpo di fortuna non arriva, sono comunque abbastanza consapevole delle mie carenze da abbandonarmi allo scorrere degli eventi e contemplare con serafico fatalismo scenari che - almeno sulla carta - non sarebbero ottimali.

È successo anche con il mio matrimonio.

Ho conosciuto il mio attuale marito (!!!) dieci anni fa a Londra. Oggi viviamo insieme a Maiorca, nelle Baleari, la sua terra d’origine.

Gli ho proposto io di sposarci, due mesi e mezzo fa, nella casa di riposo dove vive mia nonna Maria Rosa. Abbiamo deciso di farlo noi due da soli.

Come luogo abbiamo pensato subito all’isola greca dove avevamo già in programma di trascorrere una breve vacanza che agognavo da tempo.

Ci siamo sposati sabato 22 giugno, all’aperto, di fronte a una piccola comitiva di quattro sconosciute. Il Meltemi soffiava forte: ci siamo riparati dalle raffiche dietro a un monastero costruito sui resti di un tempio di Apollo. Sullo sfondo, il mare blu illuminato al tempo stesso dalle ultime luci del tramonto e da una grande luna piena.

Tutto meraviglioso, ma le cose sarebbero potute andare in modo ben diverso.

Fino a sei giorni prima della partenza non avevamo ancora le fedi.
Fino a due giorni prima non avevamo tutti i documenti.
Fino al giorno prima non avevo il vestito.
Fino alla mattina stessa del matrimonio non avevamo la certezza che l’officiante si sarebbe presentata.
Fino a cinque minuti prima non avevamo né testimoni (si sono gentilmente prestate alla missione le due amiche che l’officiante si è portata dietro) né qualcuno che facesse delle foto (alla fine le ha scattate la figlia adolescente dell’officiante, di propria iniziativa).

Non nego che tutte queste incognite (ne ho omesse parecchie) hanno comportato una certa dose di stress. Abbiamo rischiato di tornare dalla Grecia con un nulla di fatto. Il mantra era: se va così, pazienza, troveremo un’altra occasione.

E invece, grazie alla gentilezza e alla disponibilità delle donne che abbiamo incontrato, ogni singolo pezzetto è andato al posto “giusto”. Ed è venuta fuori un’avventura sì rocambolesca, ma pure molto gioiosa.

Ci tenevo a condividerla con voi. Soprattutto con le persone con cui in questi anni si è creata qualche forma di relazione. Grazie, davvero, per esserci ❤️️

📢 Anche questo numero della newsletter è sponsorizzato, e quindi supportato 🙃, da Acast, società svedese operativa a livello globale che ha creato il marketplace di podcast più prezioso al mondo.

Acast ha scelto di investire su Questioni d’orecchio con una serie di post sulla monetizzazione dei podcast. Ecco il secondo!

Come misurare il successo nella pubblicità dei podcast

di Megan Davies, Managing Director International per Acast

Il cervello di ogni marketer ruota attorno ai KPI. È ciò su cui misuriamo tutti i nostri sforzi, a prescindere dal canale di marketing in cui pubblichiamo le nostre campagne.

La pubblicità nei podcast ha acquisito sempre più slancio negli ultimi anni. Ormai non è più un canale di marketing di nicchia: marchi di tutte le dimensioni stanno abbracciando questo mezzo per aumentare la consapevolezza del proprio brand, estendere la propria portata e coinvolgere il pubblico a un livello più profondo.

Ma come misurare il successo di una campagna pubblicitaria sui podcast? Se sei nuovo o nuova nel settore, potresti non sapere quali metriche monitorare per capire se la tua campagna ha avuto successo o meno.

Clicca e continua a leggere

La parola “Fabriano” mi fa viaggiare alle scuole medie e agli album da disegno per educazione tecnica. Penso a Fabriano (che, oltre a essere una storica azienda cartiera, è anche la città marchigiana dove l’azienda è nata) e subito mi viene in mente la carta. Anche se nessuno sa bene come la carta arrivò fino a lì: probabilmente ce la portarono gli arabi.

Un’invenzione italiana

In ogni caso, i fabrianesi sono considerati maestri a livello mondiale nella produzione della carta. Già nel XIII secolo si erano posti il problema di come certificare l’unicità delle loro carte. Lo spunto glielo diederono le marche dei lanaioli. Così si misero a intrecciare «segni e disegni tra le vergelle e le catenelle dei propri telai», invisibili segni d’acqua illuminati solo in controluce.

Un esempio di carta filigranata di Fabriano

Era nata la filigrana, watermarking in inglese. A Fabriano, un ex convento dei frati domenicani ospita il museo dedicato alla tradizione delle carte e delle filigrane locali.

Per secoli la filigrana è stata usata proprio per certificare l’autenticità di testi e immagini, impedire la contraffazione di banconote e documenti e poi, soprattutto con l’avvento di Internet, anche per provare a evitare l’uso non autorizzato di contenuti vari. Infine, nella nostra epoca dell’intelligenza artificiale la filigrana è diventata uno strumento, più o meno efficace, per segnalare che un determinato contenuto è stato generato con l’AI.

Filigrane contro deepfake audio

Scrivo qui di filigrane perché la soluzione del watermarking è sempre più diffusa anche in ambito audio. Alcuni sono convinti per esempio che il watermarking possa essere uno strumento efficace per identificare i deepfake audio. (Come vedremo altri sono invece scettici, anche per la mancanza di standard, e altri ancora ne temono usi.)

Anche la più famosa società di AI al mondo, OpenAI, ha previsto l’integrazione di un watermarking per gli audio generati con VoiceEngine, il suo portentoso strumento di clonazione vocale (così portentoso, e quindi potenzialmente pericoloso, da averne ritardato il rilascio pubblico per motivi di sicurezza).

Meta, la società dietro Instagram, Facebook e Whatsapp, di recente nel campo del watermarking audio ha rilasciato pubblicamente uno strumento molto innovativo, AudioSeal: «il primo in grado di individuare quali bit di audio, ad esempio in un podcast di un'ora intera, potrebbero essere stati generati dall'intelligenza artificiale».

💡 Per chi fosse interessato alla questione, consiglio questo paper.

Al di là di quello che stanno facendo colossi come OpenAI e Meta, mi interessava capire come si stanno muovendo sul fronte della sicurezza e dell’etica le aziende di clonazione vocale più piccole. Negli ultimi anni ne sono nate moltissime (alcune sono già fallite).

Voicing the unvoiced

Tra le molte realtà esistenti c’è Voiseed, startup milanese con una forza lavoro di 15 persone specializzata nella generazione di voci sintetiche espressive nell’ambito del doppiaggio. Uno dei motti dell’azienda è Voicing the unvoiced: si occupa infatti di doppiare tutti quei contenuti che prima di solito non venivano doppiati, banalmente perché non c’erano e non ci sono abbastanza professionisti per doppiare l’enorme massa di contenuti esistenti.

A differenza della stragrande maggioranza delle società che fanno clonazione vocale, Voiseed lavora B2B. Significa che i clienti di Voiseed non sono i consumatori finali, ma le aziende. Tra queste c’è Chora: è stata proprio Voiseed a clonare la voce di Guido Maria Brera per creare la versione in inglese del podcast Black Box (attraverso cui ho scoperto l’esistenza della startup).

«Noi non offriamo soltanto la tecnologia. Offriamo anche una piattaforma che in un qualche modo emuli il processo di doppiaggio, però attraverso le voci artificiali», mi ha spiegato Lorenzo Tarantino, ingegnere informatico esperto di generazione di voci espressive. «La nostra piattaforma non è pensata per essere automatica, ma richiede l’interazione di un curatore umano», ha aggiunto Andrea Ballista, da 30 anni nel mondo della localizzazione audio (soprattutto nel gaming). «La piattaforma propone una soluzione al curatore, che è una persona con competenze linguistiche, e il curatore valuta se la pronuncia delle frasi va bene o meno».

🙏 Per sostenere il lavoro dietro a Questioni d’orecchio puoi abbonarti al costo di circa tre caffè al mese. L’abbonamento a pagamento dà la possibilità di avere contenuti esclusivi e di accedere all’archivio della newsletter.

Gli accordi con gli attori

Ballista e Tarantino sono le persone che, nel 2020, hanno dato vita a Voiseed. Nel 2021 la loro creatura ha ricevuto una spinta importante grazie al programma Horizon Europe e a un finanziamento da parte dell'EIC (European Innovation Council). È uno dei bandi per startup più competitivi a livello europeo. Voiseed è stata selezionata tra oltre 1000 aziende partecipanti, ed è stata una delle uniche due aziende italiane selezionate in quel round.

«Il fatto che il nostro progetto sia stato finanziato da Horizon Europe ci ha spinto ulteriormente ad avere come faro l'aspetto etico», mi ha detto Ballista. «Per esempio, a differenza delle altre startup, noi non abbiamo mai diffuso in rete la nostra tecnologia di clonazione vocale».

Ballista mi ha spiegato che la policy di Voiseed prevede anche che l’attore, il doppiatore o comunque chi mette la voce deve sempre dare il consenso e ricevere un compenso adeguato: «Nel momento in cui un cliente dice “voglio clonare la voce di una persona” chiediamo espressamente alla società di fornirci l’accordo con quella persona, una liberatoria insomma. Abbiamo visto tutti cos’è successo a OpenAI con Scarlett Johansson (riassumo: l’attrice ha accusato OpenAI di avere clonato la sua voce senza consenso, anche se OpenAI ha smentito). E poi c’è stato il caso di Lovo (la startup ha subito un'azione legale per avere clonato senza permesso le voci di due doppiatori). Noi siamo sempre stati molto attenti su questo discorso. Certo, gli errori possono capitare. Ma è innanzitutto l’intento malizioso che va ucciso. E noi lo abbiamo ucciso».

AAA standard cercansi

Un’altra questione è quella della trasparenza sull’origine artificiale degli audio prodotti con gli strumenti della startup. «Intanto possiamo dire che, dal momento che lavoriamo con aziende, sappiamo chi e come usa la nostra tecnologia. Di sicuro non viene usata per fare truffe telefoniche», spiega Tarantino.

Al momento però Voiseed non ha ancora implementato un sistema di watermarking, anche se ci sta lavorando. «La complessità sta nel creare un audio che non degradi e nel far sì che l’informazione sia facilmente intercettata dagli algoritmi. Peraltro al momento non esistono standard per il watermarking, ossia per identificare se un audio è stato generato artificialmente. È un punto su cui la comunità di ricerca e sviluppo nel mondo speech dovrebbe concentrarsi per definire regole condivise, anche per risalire all’origine dei dati e tracciare la filiera della generazione dei contenuti digitali».

E c’è il fatto che il watermarking permette solo ai software di capire che l’audio è stato generato artificialmente, non agli utenti. «L'unico modo per avvisare chi ascolta che sta ascoltando un contenuto sintetico è farlo dire alla voce stessa. Cosa che chiediamo come prerequisito alle aziende con cui lavoriamo, anche se non possiamo imporlo», osserva Ballista.

«È come le etichette di provenienza. O come quando i Queen nei loro album scrivevano “no synthesizers”, per esplicitare che le canzoni non erano state fatte con l’uso di sintetizzatori. Noi allo stesso modo chiediamo di dichirare che il contenuto è stato prodotto con la tecnologia di intelligenza artificiale di Voiseed, com’è previsto anche dall’AI Act».

I credits del vinile di *Queen II*, del 1974, con la dichiarazione sul non utilizzo di sintetizzatori. I sintetizzatori, ossia strumenti per produrre musica partendo dalla generazione di segnali elettrici, vennero usati sempre più spesso dalla seconda metà degli anni Sessanta. Anche i Queen, al principio contrarissimi, alla fine si misero a usarli.

Piccolo prontuario per orientarsi nel mondo dell'AI Audio

-Localizzazione: il processo che serve per rendere fruibile un contenuto audiovisivo ai parlanti di lingue diverse da quella di origine, anche attraverso un lavoro di adattamento culturale. 
Comprende varie fasi: la trascrizione, la traduzione, l'adattamento della traduzione e infine il doppiaggio nella lingua target (Voiseed si occupa di quest'ultima fase, il doppiaggio).

-Trascrizione audio-testo: è appunto la trascrizione, tramite specifiche tecnologie, di ciò che viene detto in un audio.

-Generazione vocale sintetizzata: la creazione di un file audio attraverso l’utilizzo di modelli di AI generativa. Il testo e i segnali che gli algoritmi captano rispetto ad emissione e prosodia nell’audio sorgente sono il “prompt” (ossia un'istruzione o indicazione) per la generazione di un audio sintetizzato target.

Per riassumere, l’audio viene generato partendo da tre tipi di input:
1. testuale => testo sorgente + traduzione nelle varie lingue;
2. prosodico => rilevamento emozione ed emissione dell’audio sorgente/durata delle parole/intonazione;
3. voce => voci completamente sintetizzate generate, nel caso di Voiseed, da algoritmi proprietari in via di brevetto.

Da dove arrivano i dati?
I dati utilizzati da Voiseed per l'addestramento sono raccolti attraverso partnership con svariati studi di registrazione internazionali situati in più di 16 Paesi. 
Vengono usati copioni con frasi in grado di mappare le principali espressioni/emozioni ed emissioni (dalla felicità alla tristezza, dal sussurrato all’urlato), tradotti e registrati in diverse lingue. Il dato fondamentale non è il testo, ma proprio l’interpretazione. E i file audio delle performance sono la base per insegnare ai modelli come riprodurre una certa emozione in una determinata lingua. 
In accordo con gli studi di registrazione, da questi dati non sono estrapolate le voci, ma servono solo ad addestrare i modelli al riconoscimento delle emozioni/emissioni.

I podcast nel giornalismo

La nuova edizione del Digital News Report del Reuters Institute dà una notizia buona e una cattiva sul consumo dei podcast (e dei podcast giornalistici in particolare). La buona è che, nei Paesi presi in esame, il numero di ascoltatori continua ad aumentare, anche grazie all’aumento di podcast disponibili anche in video. La cattiva è che ancora una grandissima fetta della popolazione mondiale non ascolta podcast: insomma, il margine di miglioramento è molto ampio. Allo stesso tempo, in molti Paesi c’è una saturazione dell’offerta.
In Italia la percentuale di persone che ascolta podcast in generale è leggermente inferiore alla media, e quella di chi ascolta podcast giornalistici è in leggero calo.
In generale i podcast rimangono uno strumento prezioso per gli editori giornalistici. Questo, tra i vari motivi, perché permettono di raggiungere pubblici più giovani e istruiti rispetto ad altri media, perché rispondono solo in parte a logiche algoritmiche, e perché consentono di trattare temi molto specialistici in profondità.
Tra gli editori giornalistici che più hanno investito e stanno investendo sui podcast c’è il New York Times. Secondo il Wall Street Journal il giornale presto potrebbe mettere i suoi podcast principali dietro paywall. In particolare il NYT starebbe valutando la possibilità di lasciare gratis solo i tre episodi più recenti di The Daily e di rendere i nuovi episodi di Serial un'esclusiva per abbonati per un periodo iniziale. Gradualmente potrebbe poi spostare dietro paywall un maggior numero di podcast, inclusi gli archivi. Intanto il giornale ha introdotto una serie di nuove funzioni nella sua app Audio.

Ascolti e ascoltatori negli Usa, in Uk e in Australia

Dagli Usa arrivano dati interessanti sui trend di ascolto, individuati da SiriusXM. Scopriamo per esempio che l’audio rappresenta un importante elemento di connessione nelle comunità nate intorno a sottoculture. Che crescono i podcast su astrologia, videogame e finanza personale. Che soprattutto alle donne piace ascoltare conversazioni “senza filtri”. Che i podcast risultano particolarmente “autentici e degni di fiducia”, ben più di tv e social. Che si presta molta più attenzione agli annunci pubblicitari podcast che a quelli social o nei video in streaming.
Spotify oggi conta più di 250 mila videopodcast, rispetto ai 100 mila del 2023, e il numero di creator che pubblicano attivamente video ogni mese è cresciuto di quasi il 70%. A livello globale, quasi un utente attivo mensile di podcast guarda videopodcast (il 40% in più del 2023). Negli Usa i consumatori di podcast che guardano videopodcast su Spotify sono uno su tre. Anche Edison conferma la crescente popolarità dei videopodcast negli Usa. 👇
Intanto nel Regno Unito l’ascolto di podcast ha raggiunto numeri da record: li ascolta ogni mese il 42% dei maggiorenni, e ogni settimana il 30%. Record anche in Australia: l'ì gli ascoltatori settimanali rappresentano il 35% della popolazione.
Infine, uno studio britannico e uno statunitense rilevano l’efficacia dei podcast sullo sport.

Nuovi progetti nascono

Bloomcast è una nuova società italiana di videopodcast specializzata nel podcast marketing fondata da Annalisa Terzoli.
La rivista francese So Foot ha lanciato So Foot Arena, app a pagamento di podcast sul calcio.
La società di new media PAVE Studios ha lanciato PAVE Publishing House, che pubblica libri e audiolibri.
Wellness Loud ha lanciato invece un network di podcast sul benessere.

Vecchi progetti evolvono (e finiscono)

Mediaset España ha stretto un accordo strategico con iVoox, piattaforma di podcast e radio leader in Spagna.
L’egiziana Potcast Productions ha ottenuto un investimento per creare più contenuti e migliorare la strategia di marketing.
I membri di iHeart Podcast Network che fanno parte del sindacato Writers Guild of America East hanno ratificato il loro primo contratto collettivo di lavoro. Podnews ha raccolto i dettagli.
Office Ladies, il podcast di Jenna Fischer e Angela Kinsey sulla serie tv The Office, lascerà SiriusXM per approdare su Audacy.
Call Her Daddy di Alex Cooper invece potrebbe presto lasciare Spotify per passare proprio a SiriusXM.
L’italiano Cerbero Podcast si ferma a tempo indeterminato. Mr. Marra, tra i fondatori del canale Twitch, potrebbe presto lanciare un nuovo podcast con Fedez (con cui per un periodo ha condotto Muschio Selvaggio).

Interventi statali

Il Canada imporrà una tassa sulle società di streaming per finanziare il suo sistema di radiodiffusione pubblica.
In Austria per la prima volta il governo finanzierà i podcast con mezzo milione di euro.

News pubblicitarie

Spotify ha dato vita a un’agenzia creativa interna, Creative Lab. L’azienda sta anche lavorando a un nuovo strumento per inserzionisti, Quick Audio, che consente di creare annunci con l’AI.
Negli Usa il 68% delle persone ascolta gli annunci pubblicitari nei podcast, dice la nuova ricerca “Ad Nauseam” di Sounds Profitable.
Quest’anno negli Usa la spesa per gli spot audio in streaming, podcast inclusi, crescerà del 7,8% fino a raggiungere 1,2 miliardi di dollari. È la seconda crescita più alta tra tutti i formati misurati.

Tool e novità per creator e ascoltatori

Spotify consente ora di caricare video anche per i podcast non ospitati sulla sua piattaforma.
YouTube include ora la sezione "I tuoi podcast". Intanto Google Podcast ha chiuso in tutto il mondo.
Pods 4 Us è una nuova app che permette di scoprire podcast per categorie specifiche.
L’app Hark Audio ha lanciato The Conversation, servizio che raccoglie clip di 3-5 minuti da una vasta gamma di podcast.

L’impatto dei podcast sul mondo

Sempre più spesso i politici, soprattutto in tempo di campagne elettorali, partecipano a podcast, con l’obiettivo di intercettare pubblici più giovani. Gli ultimi casi di rilievo sono quello dell’ex presidente Usa Donald Trump ospite di Impaulsive e quello del presidente francese Emmanuel Macron ospite di Génération Do It Yourself.
Dopo 50 anni le forze dell'ordine hanno identificato i resti di un uomo prima noto solo come Mister X. Il caso è stato riportato in auge da un podcast locale di true crime, Murder, etc.. Lo sceriffo ha dichiarato che la serie ha spinto il suo ufficio a riesaminare il caso.

Podcast premiati

Sono stati annunciati i vincitori dell’edizione 2024 dei Digital Publishing Awards. Let's Not Be Kidding è stato scelto come miglior podcast di arte, cultura e società, Le ripou des Hells come miglior podcast d’attualità.
Tra i vincitori dei Publisher Podcast Awards 2024 ci sono Fonds, storie di persone attraverso gli oggetti che amano (migliore serie limitata), e Poison, sugli eventi che hanno portato al suicidio di un 22enne (migliore serie investigativa).
Di recente sono stati annunciati anche i podcast premiati agli International Women’s Podcast Awards. C’è, per esempio, Lowlines, una vera chicca.

🗓 EVENTI IN PROGRAMMA
-Il 7 luglio a Piacenza ci saranno gli Italian Podcast Awards.
-Il 20 e 21 luglio a Ferrara ci sarà la Sagra del Podcast (❤️️).

Ancora sull’intelligenza artificiale

YouTube ha introdotto una modifica della sua policy che consentirà alle persone di richiedere la rimozione di contenuti sintetici che simulano il loro volto o la loro voce.
La piattaforma internazionale di podcast Pocket FM integrerà la tecnologia di AI vocale di ElevenLabs per potenziare la produzione di contenuti.
L’azienda di adtech Audion ha lanciato una soluzione di clonazione vocale in grado di riprodurre fedelmente la voce di una persona.
Grazie all’integrazione di Apple Intelligence (la tecnologia AI di Apple) nei prossimi dispositivi Siri risulterà molto più efficace. Intanto Apple ha anche stretto una partnership con OpenAI: nelle situazioni in cui OpenAI risulti più adatta a rispondere alla domanda di un utente, i dispositivi Apple consentiranno di optare per l’utilizzo di ChatGPT.
Character.AI permette ora agli utenti di parlare al telefono con i suoi personaggi AI.
La nuova Alexa dotata di AI non è ancora pronta. Amazon non ha abbastanza dati né accesso ai chip necessari per far funzionare il modello linguistico di grandi dimensioni che alimenta la nuova versione dell’assistente virtuale.

❤️️ Se questa newsletter ti è piaciuta, spargi la voce e clicca sul cuore qui sotto. Questioni d’orecchio torna tra due settimane! ❤️️

Nel 2019 ho unito queste due passioni e ho dato vita a Questioni d’orecchio: un magazine in formato newsletter sul mondo dei podcast e degli audiolibri.
Dopo vari anni al Corriere della Sera, ora sono una freelance. Al momento lavoro soprattutto per Chora e Will: sono la loro direttrice editoriale per la formazione (a proposito, abbiamo aperto le iscrizioni alla New Media Academy) e mi occupo di consulenza strategica. Faccio però anche altre cose, come parlare di podcast su LifeGate Radio.
Ho una laurea in Lettere Antiche e un master in giornalismo, che ho preso dopo un anno trascorso tra Londra e Barcellona. Oggi vivo a Maiorca, ma torno spesso nella mia adorata pianura padana.

2 Comments

M. Cristina Marras

Jul 4Liked by Andrea F. de Cesco

Da professionista della voce continuo a ricevere 'offerte di lavoro' che consistono nel mettere a disposizione la mia voce per non so bene quale tipo di attività AI. C'è niente di più intimo e personale della nostra voce? Mi preoccupa. E non inizio nemmeno a parlare delle implicazioni di altro tipo, in una società che ospita fasce di varia umanità pronta a credere a qualsiasi cosa perché "l'ha detto la tv/l'ho letto su FB". È un tantino inquietante.

Expand full comment

Rocco Rossitto

In progress

Il 22 😍