Fai un giro a YouTube di [APPLAUSI] - I suoni sono ora sottotitolati automaticamente

lancio del servizio di live streaming di youtube tv 28691186 mlYouTube merita un applauso, perché la piattaforma video può ora includere automaticamente [APPLAUSI] e altri effetti sonori nei sottotitoli di un video. L'espansione della didascalia, annunciata giovedì 23 marzo, è resa possibile dalle reti neurali profonde, una forma di intelligenza artificiale.

Per ora, YouTube può solo etichettare automaticamente applausi, musica e risate, ma quei tre effetti sonori erano le descrizioni che i creatori di contenuti aggiungevano manualmente a qualsiasi altro rumore di sottotitoli. L'ultima funzionalità si basa sulla funzione di sottotitoli automatici lanciata nel 2009 per il testo, ma aggiunge i primi effetti sonori al sistema.

YouTube afferma che il programma funziona in modo simile al rilevamento di oggetti nelle immagini, ma ha dovuto affrontare alcune difficoltà in più rispetto al riconoscimento degli oggetti. Per fare in modo che il programma riconoscesse solo quei tre suoni, gli ingegneri di YouTube hanno dovuto insegnare al programma a rilevare quei suoni, separarli temporaneamente e quindi inserire quel suono riconosciuto nei sottotitoli.

Il sistema tendeva anche a lottare con gli effetti sonori che si verificavano contemporaneamente ad altri suoni, come risate e conversazioni. Un'altra sfida era trovare un set di dati sufficientemente ampio per addestrare il sistema che non fosse già adeguatamente etichettato inserendo manualmente i dati.

La rete di apprendimento profondo analizza brevi segmenti in sequenza ed è in grado di prevedere la probabilità di tali effetti sonori a una velocità di circa 100 fotogrammi al secondo. Gli ingegneri di YouTube, tuttavia, hanno costruito il sistema in modo da consentire l'aggiunta di ulteriori effetti sonori al sistema in un secondo momento.

Allora perché applausi, musica e risate? Oltre ad essere solo le etichette regolate manualmente più frequentemente nel sistema di sottotitoli, ognuno di quei suoni ha anche un solo significato. Un "squillo", ha spiegato YouTube, offrendo un esempio, potrebbe essere uno squillo di un campanello, un telefono o un allarme, presentando una sfida completamente nuova per il software.

Secondo YouTube, ogni giorno vengono visualizzati oltre 15 milioni di video con sottotitoli automatici. In un test dell'ultimo aggiornamento dei sottotitoli automatici, due terzi hanno affermato che le etichette degli effetti sonori hanno migliorato l'esperienza complessiva.