A mesterséges intelligencia verseny új szintre lépett: Microsoft három új, nagy méretű modellt mutatott be, amelyekkel tovább erősíti pozícióját a gyorsan fejlődő AI-piacon.
A vállalat kutatólaboratóriuma egyszerre három különböző képességre fókuszáló rendszert jelentett be: a MAI-Transcribe-1, a MAI-Voice-1 és a MAI-Image-2 modelleket. Ezek a fejlesztések azt jelzik, hogy a cég saját multimodális mesterséges intelligencia-ökoszisztémát épít, amely képes szöveg, hang és képi tartalmak előállítására – írja a TechCrunch.
A MAI-Transcribe-1 beszédfelismerő modell 25 nyelven képes a hangot szöveggé alakítani, miközben a vállalat állítása szerint 2,5-szer gyorsabb, mint az Azure Fast szolgáltatás. A rendszert úgy tervezték, hogy zajos környezetben is pontos maradjon, kiszűrve a háttérhangokat. A modellt hamarosan a Microsoft Teams platformba is integrálják.
A második fejlesztés, a MAI-Voice-1, generatív hangkészítésre képes: a vállalat ígérete szerint mindössze egy másodperc alatt akár 60 másodpercnyi hanganyagot is előállít, egy meghatározott hangszínnel.
A vizuális tartalmak terén a MAI-Image-2 kínál új megoldásokat, tovább bővítve a multimodális képességeket.
A modellek fejlesztését a MAI Superintelligence csapat vezette, amelyet Mustafa Suleyman irányít. A szakember 2024-ben csatlakozott a vállalathoz, és azóta az AI-stratégia egyik kulcsfigurájává vált.
A háttérben jelentős technológiai fejlesztések zajlanak. A Microsoft októberben kezdte el használni az Nvidia GB200 chipekre épülő infrastruktúrát, amely jelentősen növeli a számítási kapacitást. „Innen fokozatosan növekszünk a következő 12–18 hónapban, hogy csúcsszintű számítási kapacitást érjünk el” – nyilatkozta Suleyman.
A vállalat eddig mintegy 13 milliárd dollárt fektetett be mesterséges intelligencia-fejlesztésekbe, és egy többéves stratégia keretében tervezi integrálni az új modelleket különböző termékeibe, tovább erősítve jelenlétét az AI-technológiák globális versenyében.
