Adobes projekt Voco är ett "Photoshop för ljud"

Företagets teknikdemonstration av hur ljud kan analyseras och översättas till text har imponerat på deltagare under mässan Adobe MAX 2016.

Sannolikheten är stor att du eller någon du känner har testat på Adobes olika mjukvaror tidigare, där bildredigeraren #Photoshop är den stora ikonen. #Adobe håller årligen en konferens där nya och uppdaterade produkter premiärvisas, och bland årets utbud hittas en synnerligen intressant teknikdemonstration vid namn Voco.

Project Voco är en förkortning av "Voice conversation" och beskrivs som "Photoshop för ljud". Vad det handlar om är en ljudredigerare som kan analysera ljudspår och konvertera talat språk till text. Den stora nyheten här är att användaren kan redigera den utlästa texten varpå programmet konverterar ändringarna till ljudspåret, eller kort och gott redigera inspelat tal.

Utöver att redigera de utlästa orden kan även nya ord skrivas in och "skjutas in" bland det redan existerande talet. I den teknikdemonstration som visades upp under konferensen visades den analyserade texten upp i ett textfält under ljudspåret. Rösten i ljudspåret analyseras och en syntetisk version av rösten skapas. När du skriver in ett nytt ord används denna syntetiska röst för att efterlikna hur det skulle kunna låta när personen i ljudklippet uttalar ordet.

Den nuvarande lösningen fungerar på så sätt att en ljudslinga bryts ner i ett antal språkljud, så kallade fonemer, som utgör ett talat språk. Dessa språkljud används sedan för att återskapa hur talaren skulle kunna uttala vissa ord. I dagsläget kräver tekniken att det analyserade ljudspåret är minst 20 minuter långt med talat språk, men detta ska minskas med tiden.

I videon ovan demonstrerar Adobe hur existerande ord kan skrivas in på olika platser i texten varpå programmet letar upp ljudet för detta ord på andra platser i ljudspåret och infogar det på aktuell plats. Ungefär 4:30 minuter in i videon kan du även se hur orden "three times", som inte finns i ljudspåret, skapas utifrån de olika språkljuden.

Adobe har historiskt visat upp nya tekniker på MAX-konferensen som sedan blir till kommersiella produkter inom de kommande två åren. Om Voco faktiskt tar steget från teknikdemonstration till produkt lär det bli som en komponent i ljudredigeringsmjukvaran Adobe Audition.

Kommentarer
1 svar

Datorspelen Portal och Portal 2 har blivit kända bland annat för sina stämingsfulla avslutningslåtar, och här kommer ännu mer musik inspirerad av Portal.

Med den modulära datorn Kano kan vem som helst lära sig att skruva ihop sin egen hårdvara för ett flertal olika användningsområden. Med Kano Code går det också att lära sig grundläggande programmering. 99mac har pratat med Tommy Säl, som arbetar på Kickstarter-succén.

Super Mario Run släpps nästa vecka, och väntas bli ohyggligt populärt. Nu avslöjas dock att spelet kräver uppkoppling mot internet för att fungera.

Läs för dina barn eller själv en ordentlig julsaga i interaktiv form på Ipad, Iphone eller Android när Snobbens ägare Charlie Brown letar julens mening.

Bakom lucka nio i Geeks Julkalender döljer sig både ett fint erbjudande på tangentbordet G610 Orion Red från Logitech, och en tävling där du kan vinna tangentbordet, spelmus och andra tillbehör.

Nintendos USA-chef Reggie Fils-Aime säger att IOS-spelet Super Mario Run inte kommer att dyka upp på den kommande konsolen Nintendo Switch, men en version för Apple TV kan inte uteslutas.