OpenAI:n uusi malli luo synteettisen puheäänen - tarvitsee vain 15 sekunnin näytteen

Tekoäly-yhtiö OpenAI on julkistanut uuden Voice Generation -tekoälymallin ja sitä hyödyntävän Voice Engine -alustan.

Voice Engine mahdollistaa synteettisen puheäänen luomisen. Malli tarvitsee poikkeuksellisen vähäisen, vain 15 sekunnin näytteen, jonka perusteella se pystyy äänen luomaan.

OpenAI on kehittänyt mallia jo vuoden 2022 lopulta alkaen, ja se on käytössä OpenAI:n aiemmin maaliskuussa 2024 ChatGPT:hen esittelemässä, vastaukset ääneen lukevassa Read Aloud -toiminnossa sekä OpenAI:n teksti puheeksi -rajapinnoissa.

Toistaiseksi OpenAI ei ole julkaissut uutta puheääntä luovaa Voice Engineä yleiseen käyttöön, vaan tarjoaa sen käyttöön rajatun, valikoidun pääsyn.

Luotu synteettinen ääni voi lukea sille annettuja tekstejä ääneen – samalla tai eri kielellä.

”Nämä pienimuotoiset käyttöönotot auttavat antamaan tietoa lähestymistavastamme, suojatoimistamme ja pohtimaan, kuinka Voice Engineä voitaisiin käyttää hyväksi eri toimialoilla”, kommentoi OpenAI julkistuksessaan.

Toistaiseksi mallia ovat päässeet kokeilemaan muun muassa koulutusteknologiayritys Age of Learning, visuaalisen tarinankerronnan alusta HeyGen, terveysalalle ohjelmistoja luova Dimagi, tekoälypohjaisia viestintäsovelluksia kehittävä Livox sekä terveydenalan järjestelmiä luova Lifespan.

Luonnollista puheääntä luovissa tekoälymalleissa OpenAI kohtaa kilpailua startup-yrityksiltä. Lisäksi Apple toi laitteisiinsa syksyn 2023 merkittävissä käyttöjärjestelmäversioissa iOS ja iPadOS 17 sekä macOS Sonoma uuden Oma puheääni -toiminnon, jolla omasta äänestä voi luoda syntetisoidun puheäänen. Toiminto vaatii 15-minuuttisen äänityksen, eli selvästi enemmän OpenAI:n malliin verrattuna.

Oma puheääni on käyttöaputoiminto, ja Applen mukaan sen avulla voi puhua kirjoittamalla FaceTimessa, puheluissa, avustavissa viestintäsovelluksissa ja kasvotusten käytävissä keskusteluissa.

Yhdysvalloissa tekoälyllä luotujen äänien käyttö on jo kasvava ongelma huijauksissa ja muissa tapauksissa. Helmikuussa Yhdysvaltojen viestintävirasto FCC kielsi tekoälyllä luotujen äänien käytön robottipuheluissa sen jälkeen, kun tekoälyllä kopioidulla Joe Bidenin äänellä soiteltiin ihmisille.

OpenAI:n mukaan sen tähänastiset kumppanit ovat sitoutuneet noudattamaan OpenAI:n käyttöehtoja ja pidättäytyneet käyttämästä Voice Generationin ominaisuuksia esiintyäkseen tekaistuina ihmisinä tai organisaationa luvattomasti. OpenAI edellyttää myös kumppaneiden saavan erillisen ja tietoisen luvan todelliselta puhujalta äänen käyttämiseen, minkä lisäksi se on kieltänyt rakentamasta toimintoja, jolla yksittäiset henkilöt voisivat vapaasti luoda oman äänensä, ja vaatii kumppaneiden tiedottavan julkaisemissaan sisällöissä kyseessä olevan tekoälyäänen.