Emberszerű beszédet generál a VALL-E

Mindössze három másodperces minta alapján képes emberszerű beszédet generálni a redmondiak új VALL-E megoldása, ráadásul a szintetizált hangfelvétel nemcsak a beszélő sajátos tónusait tartja meg, de az akusztikát is mímeli. A Microsoft kutatói bejelentették a VALL-E szövegfelolvasó MI-modellt, ami egy mindössze három másodperces hangminta alapján képes valós személy hangját szimulálni. Így a beszélő jellegzetes tónusait […]