În medii complexe, oamenii pot înțelege sensul vorbirii mai bine decât inteligența artificială, deoarece ne folosim nu numai urechile, ci și ochii.
De exemplu, vedem gura cuiva în mișcare și putem ști intuitiv că sunetul pe care îl auzim trebuie să provină de la acea persoană.
Meta AI lucrează la un nou sistem de dialog AI, care trebuie să învețe AI să învețe să recunoască, de asemenea, corelațiile subtile dintre ceea ce vede și aude într-o conversație.
VisualVoice învață într-un mod similar cu modul în care oamenii învață să stăpânească noi abilități, permițând separarea vorbirii audio-vizuale prin învățarea indiciilor vizuale și auditive din videoclipurile neetichetate.
Pentru mașini, acest lucru creează o percepție mai bună, în timp ce percepția umană se îmbunătățește.
Imaginați-vă că puteți participa la întâlniri de grup în metavers cu colegi din întreaga lume, alăturându-vă la întâlniri de grup mai mici pe măsură ce se deplasează prin spațiul virtual, timp în care reverburile și timbrele sunetului din scenă se adaptează în funcție de mediu.
Adică, poate obține informații audio, video și text în același timp și are un model mai bogat de înțelegere a mediului, permițând utilizatorilor să aibă o experiență de sunet „foarte wow”.
Ora postării: 20-iul-2022