
În medii complexe, oamenii pot înțelege sensul vorbirii mai bine decât AI, deoarece folosim nu numai urechile noastre, ci și ochii noștri.
De exemplu, vedem că gura cuiva se mișcă și poate să știm intuitiv că sunetul pe care îl auzim trebuie să vină de la acea persoană.
Meta AI lucrează la un nou sistem de dialog AI, care este de a -l învăța pe AI să învețe, de asemenea, să recunoască corelații subtile între ceea ce vede și aude într -o conversație.
Visualvoice învață într-un mod similar cu modul în care oamenii învață să stăpânească noi abilități, permițând separarea vorbirii audio-vizuale prin învățarea unor indicii vizuale și auditive din videoclipuri nemarcate.
Pentru mașini, acest lucru creează o percepție mai bună, în timp ce percepția umană se îmbunătățește.
Imaginați -vă că puteți participa la întâlniri de grup în Metaverse cu colegi din întreaga lume, alăturați -vă întâlnirilor de grup mai mici, în timp ce se deplasează prin spațiul virtual, în timpul căruia se adaptează sunetul și timbrele din scenă în funcție de mediu se adaptează în consecință.
Adică poate obține informații audio, video și text în același timp și are un model mai bogat de înțelegere a mediului, permițând utilizatorilor să aibă o experiență sonoră „foarte wow”.
Timpul post: 20-2022