A nyelvi korlátok évtizedeken át az emberi kommunikáció egyik legnagyobb akadályát jelentették. Most úgy tűnik, a technológia új szintre lépett: a Google bejelentette a Gemini 3.5 Live Translate modellt, amely valós időben fordít hangról hangra, méghozzá úgy, hogy közben megőrzi a beszélő saját hangját – írja a Google.
Ez azt jelenti, hogy a felhasználók akár 70 különböző nyelven is megszólalhatnak úgy, mintha valóban ismernék az adott nyelvet – a saját hangszínükkel, ritmusukkal és beszédstílusukkal. Ez a fejlesztés gyökeresen átalakíthatja a nemzetközi kommunikációt.
A hagyományos fordítóprogramok eddig többnyire csak akkor kezdtek dolgozni, amikor a beszélő befejezte a mondatot. A Gemini 3.5 Live Translate ezt a korlátot áttöri.
Az új rendszer folyamatosan hallgatja a beszédet, és szinte azonnal elkezdi generálni a fordítást, így a párbeszéd természetesebb és gördülékenyebb marad. A késleltetés csupán néhány másodperc.
Ez különösen fontos lehet üzleti megbeszéléseken, online oktatásban vagy élő közvetítések során, ahol minden másodperc számít. A rendszer automatikusan felismeri, milyen nyelven beszél a felhasználó, és több mint 70 nyelven képes működni.
A Google szerint ez több mint 2000 különböző nyelvi kombinációt jelenthet, ami új szintre emeli a globális kapcsolattartást. A fejlesztés zajos környezetben is stabilan működhet, így akár utcán, utazás közben vagy forgalmas helyeken is használható marad.
Megérkezik a Google Meetbe és a Google Translate-be
Az új technológia nem marad elszigetelt fejlesztés. A vállalat közlése szerint még ebben a hónapban elindul a tesztelés a Google Meet platformon, elsősorban vállalati környezetben.
Később fokozatosan szélesebb körben is elérhetővé válik. Ezzel párhuzamosan az Google Translate mobilalkalmazásba is beépítik, Androidon és iPhone-on egyaránt.
A felhasználók bármilyen fejhallgatóval használhatják majd az élő hangfordítást.
Az Androidos készülékeken egy új „hallgatási mód” is érkezik, amely lehetővé teszi, hogy a telefont a fülhöz tartva hallgassuk a fordítást, mintha egy normál telefonhívás lenne.
Már most milliók használhatják
A technológia már valós környezetben is tesztelés alatt áll. A szingapúri Grab Holdings közlekedési platform már alkalmazza a rendszert a sofőrök és utasok közötti kommunikáció javítására.
A Google szerint a platformon havonta több mint 10 millió hanghívás zajlik, így a valós idejű fordítás jelentősen csökkentheti a félreértéseket.
A mesterséges intelligencia fejlődésével együtt egyre nagyobb kérdés a hitelesség és a biztonság. Ezért a Google minden, a rendszer által generált hangfájlt ellát a SynthID technológiával. Ez egy láthatatlan digitális vízjel, amely segít azonosítani az AI által létrehozott hanganyagokat.
A vállalat szerint ez csökkentheti a visszaélések és a félrevezető tartalmak terjedésének kockázatát, miközben átláthatóbbá teszi a mesterséges intelligencia által módosított tartalmakat.
