Xiaomi, kompanija za potrošačku elektroniku i pametnu proizvodnju s pametnim telefonima i hardverom suštinski povezanim na IoT platformu, predstavio je najnoviju primjenu naprednih algoritama i vlastite govorne tehnologije na području pristupačnosti. Tehnologija Text-To-Speech, koju je razvio Xiaomi AI Lab, koristi se za generiranje jedinstvenog i prilagođenog glasa za korisnike s poremećajima govora.

Korisnik sada može komunicirati s drugim ljudima koristeći "vlastiti glas", umjesto tipičnog monotonog elektroničkog glasa. Kao dio predistraživačkog projekta "Own My Voice" kojeg provodi Xiaomi Technical Committee, ovaj uspješan pokušaj demonstrira Xiaomijevu predanost filozofiji "Tech for Good" i ostvarivanju misije „da svi ljudi na svijetu uživaju u boljem životu putem inovativnih tehnologija".

Zašto je Xiaomi pokrenuo ovaj projekt?

Xiaomi brine o ljudima i kroz tehnološke inovacije nastoji zadovoljiti njihove različite potrebe. Otkrio je želju mnogih korisnika s govornim poremećajima za korištenjem vlastitog glasa za svakodnevnu komunikaciju, te osnovao projektni tim "Own My Voice" kako bi pozvao korisnike s govornim poremećajima kao primatelje glasa. Zhu Xi, voditelj tematskog tehnološkog odbora za Tech for Good u kompaniji Xiaomi Corporation, je rekao: "Uzbuđeni smo što ćemo istražiti višestruku vrijednost koju nam donose tehnološke inovacije, kao što je odgovor na zahtjeve korisnika za vlastitim identitetom i izgradnjom identiteta."

Kako je Xiaomi izveo projekt?

Kako bi generirao najprikladniji, personalizirani glas za primatelja, projektni tim je angažirao više od 200 volontera unutar Xiaomia da doniraju svoje glasove. Koristili su algoritam za podudaranje otiska glasa kako bi uparili značajke glasova doniranih volontera s onima glasa primatelja. Ovim pristupom pronašli su najprikladniji glas kao osnovni zvuk glasovne reference za primatelja. S obzirom na personalizaciju i zaštitu privatnosti, odabranim stvarnim glasom manipulirano je složenim akustičnim modifikacijama kako bi se formirao novi i originalni zvuk glasa.

Zatim je upotrijebljena tehnologija Text-To-Speech spontanog stila za treniranje AI modela, čime je ovaj novi glas postupno dobio prirodan ritam i intonaciju koja može istinito izraziti emociju i ton čovjeka.

Projekt "Own My Voice" kombinira niz najnaprednijih algoritama s Xiaomijevom samorazvijenom govornom tehnologijom kako bi se osigurala specifičnost, sigurnost i visoka autentičnost sintetiziranog glasa, stvarajući novu ideju o prilagođenoj sintezi govora za korisnike s govornim poremećajima.

Koji je značaj ovog projekta?

Okosnica ovog projekta je grupa stručnjaka za govornu tehnologiju iz Xiaomi AI Laba. Od 2017. godine objavili su 37 radova o govoru u zbornicima vrhunskih međunarodnih konferencija, poput Međunarodne konferencije o akustici, govoru i obradi signala (ICASSP). Uspjeh "Own My Voice" uglavnom ovisi o Text-To-Speech tehnologiji spontanog stila koju su razvili.

Tehnologija Text-To-Speech spontanog stila u biti čini da sintetizirani glas zvuči poput ljudskog u svojoj intonaciji, pauzi, brzini i drugim značajkama. Time se monoton i neprirodan osjećaj elektroničkog glasa zamjenjuje prirodnijim. Trenutno se ova tehnologija primjenjuje na mnoge pametne uređaje koji koriste Xiaoai, AI glasovnog asistenta kompanije Xiaomi. Projekt "Own My Voice" pokazuje da Text-To-Speech tehnologija spontanog stila također može biti široko prihvaćena u područjima pristupačnosti i poboljšati korisničko iskustvo.

Zhu Xi dodaje: "Ako primijetimo potrebe manjinskih skupina u ranoj fazi i odgovorimo na njih, proces širenja tehnologije mogao bi se uvelike skratiti. To omogućuje da prednosti novih tehnologija postanu trenutno dostupne korisnicima s posebnim potrebama."

Idući naprijed, Xiaomi će nastaviti primati povratne informacije od primatelja glasa i dalje proučavati izvedivost ovog projekta u širem rasponu. Xiaomi će nastaviti osnaživati pristupačnost kroz vrhunsku tehnologiju, nastojeći ispuniti različite potrebe ljudi kroz tehnološke inovacije.