(+36-1) 452-0050
(+36-1) 452-0051
info@patronet.hu
1146 Budapest, Ajtósi Dürer sor 5.
(+36-1) 452-0050

A Microsoft beszédfelismerője állítólag már emberi szintű

IT Café @ 2017. augusztus 28.

 

A fejlődés kétségtelen és gyors, de valós körülmények között még ez a rendszer sem képes elfogadhatóan működni.

 

A hivatalos blogban jelentette be a kutatócsapat, hogy beszédfelismerő rendszerük újabb mérföldkőhöz ért el: a tévedési arány lecsökkent 5,1 százalékra, vagyis olyan mértékű, mint azoknál az embereknél, akik professzionálisan foglalkoznak hangzó szövegek átírásával.

A vállalat tavaly büszkén jelentette be, 2016 szeptemberében eljutottak odáig, hogy a tévedési ráta a korábbi 6,3 százalékról 5,9 százalékra csökkenjen, és ezt az eredményt akkor forradalminak nevezték, illetve – csakúgy, mint most – az emberi felismerés elérésének tartották. Ezzel az IBM szakemberei akkor vitára keltek, és kutatásaikra hivatkozva közölték, hogy e kijelentés megalapozottságához az 5,1 százalék elérése kell.

Akárcsak a 2016-os teszt során, a Microsoftnál most is a Switchboard adatbázisán tette próbára rendszerét – a Switchboard egy olyan gyűjtemény, mely körülbelül 2400 olyan telefonbeszélgetés felvételét tartalmazza, melyeket angolul akcentussal megszólaló, nem anyanyelvi beszélők folytattak. A beszélgetések számtalan témát felölelnek, ugyanakkor sokkal formálisabbak, szabályosabbak, mint a hétköznapi életben zajlók. És azt is hozzá kell tenni, hogy a mostani kísérlet során nem használtak egy kontrolladatbázist, a CallHome-ot, mely sokkal lazábban megformált, családi beszélgetéseket tartalmaz – az előző mérésből kiderült, hogy ezen az anyagon mind az ember, mind a beszédfelismerő kétszer annyit hibázik, mint a Switchboard felvételeinél.

Habár az eredmények meggyőzőek, azt a Microsoftnál is elismerik, hogy a beszédfelismerő továbbra sem képes különbséget tenni az akcentusok és a beszédstílusok között, illetve a háttérzaj alaposan lerontja a hatékonyságot.

A Google is folytat hasonló fejlesztést, ők idén jelentették be, hogy elérték a 4,9 százalékos tévedési rátát, ám mivel nem közölték, hogy milyen hanganyagon végezték a tesztet, eredményük megítélése kétséges.



« Vissza

Kapcsolódó anyagok

PatroNet Consulting Kft.
(+36-1) 452-0050
(+36-1) 452-0051
info--.at.--patronet.hu
1146 Budapest,
Ajtósi Dürer sor 5.
GPS: N 47° 30' 25.815"
E 19° 5' 11.4786"