AI och röst - en ny dimension av kommunikation

Kontroverserna kring OpenAI och Scarlett Johansson

Tidigare i höst lanserade OpenAI ”Advanced Voice Mode”, man kan därmed ha ett naturligt samtal med ChatGPT och inte vara beroende av att använda tangentbordet för att prompta. Den nya röstfunktionen går längre än att bara förstå och kunna samtala med röst, den kan även förstå och uttrycka ironi och olika känslolägen.

Denna funktion kom inledningsvis med en hel del turbulens. En av de valbara rösterna som demonstrerades precis innan lanseringen lät uppseendeväckande lik Scarlett Johanssons röst. Skådespelerskan har tidigare agerat AI-röst i filmen ”Her”, där för övrigt Joaquin Phoenix gör en fantastisk rollprestation, och det framkom att Sam Altman, vd och grundare av OpenAI, försökt få henne att även låna ut sin röst till OpenAI. Scarlett Johansson tackade dock nej och blev både förvånad och upprörd över att en av de valbara rösterna i OpenAI lät snarlik hennes egen. Det slutade med att OpenAI plockade bort den specifika rösten när funktionen rullades ut. Detta ledde ändå till en bredare diskussion kring problemet. Det går uppenbart, med hjälp av AI, att klona röster från offentliga personer vars röst finns tillgänglig via radio, TV, filmer och streaming-plattformar.

ElevenLabs nya funktion – Voice Design

Ett annat företag som sticker ut inom AI-röst är ElevenLabs. Deras primära tjänst var inledningsvis en funktion för ”text-to-speech”, exempelvis kan man ladda upp en längre artikel och få den uppläst för sig i pod-format. Nyligen lanserade de ”Voice Design”, en funktion som låter användare skapa helt unika röster genom att justera parametrar som tonläge och accent. Det går även att klona röster genom plattformen. Du kan med andra ord kopiera din egen, eller om du har en ljudinspelning, någon annans röst direkt i deras plattform.

I och med detta står ElevenLabs inför samma utmaning som många andra inom AI-röstområdet – hur ser man till att tekniken inte missbrukas? ElevenLabs försäkrar att de arbetar med avancerade säkerhetsåtgärder och samarbetar med etiska rådgivare för att minimera riskerna för missbruk. Detta område är dock komplext, något vi återkommer till längre fram.

Användningsområden för AI-röst

AI-genererade röster har en bred och växande mängd användningsområden. Inom underhållningsindustrin ser vi exempel på hur AI-genererade röster används vid dubbning, för att läsa upp ljudböcker eller ge röst åt fiktiva karaktärer i datorspel eller animerade serier och filmer. Inom utbildningssektorn kan AI-röst exempelvis användas för att skapa engagerande och personliga lärupplevelser. Tänk dig en historia uppläst av en röst som kan förmedla olika nyanser, känslor och dialekter på ett engagerande sätt, eller en personlig guide som förklarar svåra koncept i ett tonläge och tempo som passar en specifik åldersgrupp.

Det kommer troligen inte heller dröja länge innan vi på bred front ser chatbotar på företagshemsidor som du kan ha ett naturligt samtal med istället för att behöva skriva alla frågor i ett chattfönster. Den tekniska förutsättningen är redan på plats, något som både ChatGPT och Google Gemini bevisat.

Riskerna med att klona röster

Som tidigare nämnt kommer möjligheterna dock med utmaningar. Röstkloning leder till uppenbara risker för identitetsstölder, bedrägerier och spridning av falsk information. Deepfake-röster har redan börjat dyka upp i sammanhang där de används för att lura människor, framförallt har politiker och celebriteter, vars röster är lätta att komma åt genom ljudinspelningar som redan distribuerats oentligt, blivit utsatta för röstkapning. Liknande problem kan även uppstå i vår direkta närhet, tänk dig själv om en närstående skulle ringa och säga att de är i en nödsituation och behöver en snabb pengatransaktion. Kan vi verkligen veta att personen är den som den utger sig att vara? Avslutande Tankar Det enda vi vet säkert är att röstkloning kommer att bli bättre och bättre. Det skapar möjligheter vi inte tidigare sett men kommer även med stora risker. Frågor om etik, kontroll och säkerhet kommer att fortsätta vara i fokus, och det är viktigt att vi alla är medvetna om både potentialen och riskerna.

Som tidigare nämnts kommer möjligheterna också med utmaningar. Röstkloning leder till uppenbara risker för identitetsstölder, bedrägerier och spridning av falsk information. Deepfake-röster har redan börjat dyka upp i sammanhang där de används för att lura människor. Framför allt har politiker och celebriteter, vars röster är lätta att komma åt genom ljudinspelningar som redan distribuerats offentligt, blivit utsatta för röstkapning.

Liknande problem kan även uppstå i vår direkta närhet, till exempel om en familjemedlem, vän eller kollega ringer och säger att de är i en nödsituation och behöver en snabb penningtransaktion. Kan vi verkligen veta att personen är den som den utger sig att vara?

Avslutande tankar

Det enda vi vet säkert är att röstkloning kommer att bli bättre och bättre. Det skapar möjligheter vi inte tidigare sett men kommer även med stora risker. Frågor om etik, kontroll och säkerhet kommer att fortsätta vara i fokus, och det är viktigt att vi alla är medvetna om både potentialen och riskerna.