
În medii complexe, oamenii pot înțelege sensul vorbirii mai bine decât inteligența artificială, deoarece ne folosim nu doar urechile, ci și ochii.
De exemplu, vedem gura cuiva mișcându-se și este posibil să știm intuitiv că sunetul pe care îl auzim trebuie să vină de la acea persoană.
Meta AI lucrează la un nou sistem de dialog bazat pe inteligență artificială, care are ca scop învățarea inteligenței artificiale să recunoască și corelațiile subtile dintre ceea ce vede și aude într-o conversație.
VisualVoice învață într-un mod similar cu modul în care oamenii învață să stăpânească noi abilități, permițând separarea vorbirii audio-vizuale prin învățarea indiciilor vizuale și auditive din videoclipuri neetichetate.
Pentru mașini, acest lucru creează o percepție mai bună, în timp ce percepția umană se îmbunătățește.
Imaginează-ți că poți participa la întâlniri de grup în metavers cu colegi din întreaga lume, alăturându-te unor întâlniri de grup mai mici pe măsură ce se deplasează prin spațiul virtual, timp în care reverberațiile sonore și timbrurile din scenă se ajustează în funcție de mediu.
Adică, poate obține informații audio, video și text în același timp și are un model mai bogat de înțelegere a mediului, permițând utilizatorilor să aibă o experiență sonoră „foarte uimitoare”.
Data publicării: 20 iulie 2022