World Wide Voice Web: un nuovo progetto dei ricercatori di Stanford AI
I ricercatori di Stanford AI stanno ragionando sulla creazione del World Wide Voice Web (WWvW), una nuova versione del World Wide Web che le persone saranno in grado di navigare interamente utilizzando la voce.
Il World Wide Web (WWW) ha cambiato profondamente le nostre vite, e rivoluzionato il modo in cui otteniamo informazioni, le piattaforme di entertainment, come ci relazioniamo con altre persone e come facciamo business.
Utilizzando nuovi strumenti di sviluppo di assistenti basati sulla voce, i ricercatori di Stanford stanno ragionando sulla creazione del World Wide Voice Web (WWvW), una nuova versione del World Wide Web che le persone saranno in grado di navigare interamente utilizzando la voce.
Circa 90 milioni di americani utilizzano già smart speaker per richiedere ed ascoltare musica e notizie in streaming, nonché per svolgere attività come ordinare la spesa, programmare appuntamenti e controllare la smart home. Tuttavia, due brand controllano questi "gateway vocali" per accedere alle informazioni: Amazon con Alexa e Google con Assistant.
Il team di Stanford, guidato dalla professoressa Monica Lam, presso lo Stanford Open Virtual Assistant Laboratory (OVAL), ha sviluppato Genie: un assistente virtuale open source particolarmente attento alla privacy. Inoltre hanno creato degli strumenti di sviluppo di agenti vocali che possono offrire un'alternativa al piattaforme proprietarie.
Che cos'è il WWvW?
Proprio come il World Wide Web, il WWvW(World Wide Voice Web) è decentralizzato. L'idea di fondo è che le organizzazioni pubblicano informazioni nei propri assistenti vocali, le quali saranno a disposizione anche degli altri assistenti.
Sul WWvW gli agenti conversazionali sono come pagine web, che forniscono informazioni sui loro servizi e applicazioni, e per proseguire l'associazione, l'assistente virtuale è il browser. Gli agenti possono anche essere resi disponibili come chatbot o agenti di call center.
- Monica Lam
E continua..
Il WWvW ha il potenziale per raggiungere ancora più persone rispetto al WWW, compresi gli utenti che non sono tecnicamente esperti e quelli che non sanno leggere o scrivere bene.
Ad esempio, l'assistente professore di Stanford Chris Piech, con gli studenti laureati Moussa Doumbouya e Lisa Einstein, stanno lavorando per sviluppare la tecnologia vocale per tre lingue africane, che potrebbe aiutare a colmare il divario tra l'analfabetismo e l'accesso a risorse preziose, comprese le cure mediche.
Unlike the commercial voice web spearheaded by Amazon and Google, which is only available in select markets and languages, the decentralized WWvW empowers society to provide voice information and services in every language and for every use, including education and other humanitarian causes which do not have big monetary returns.
Genie in azione
Negli ultimi sei anni, Monica Lam ha lavorato con il dottorando di Stanford Giovanni Campagna, il professore di informatica James Landay e Christopher Manning, professore di informatica e linguistica, all'OVAL per sviluppare una nuova metodologia di sviluppo di agenti vocali più efficiente rispetto alle soluzioni attuali. Genie Pre-trained Agent Generator (open source) che hanno progettato, offre notevoli riduzioni dei costi e delle risorse necessarie per lo sviluppo di agenti vocali in diverse lingue.
L'interoperabilità è un componente chiave per garantire che i dispositivi possano interagire tra loro senza problemi.
Al centro della tecnologia Genie c'è un linguaggio di programmazione distribuito che hanno creato ad hoc per gli assistenti virtuali chiamato ThingTalk. Consente l'interoperabilità di più assistenti virtuali, servizi Web e dispositivi IoT (Internet of Things). Stanford sta attualmente offrendo il primo corso su ThingTalk, Conversational Virtual Assistants Using Deep Learning.
Ad oggi, Genie dispone di agenti pre-addestrati per le abilità vocali più diffuse, come la riproduzione di musica, podcast, notizie, consigli sui ristoranti, promemoria e timer, oltre al supporto per oltre 700 dispositivi IoT. Questi agenti sono disponibili apertamente e possono essere applicati ad altri servizi simili.
La conferenza su World Wide Voice Web
Ieri, il team OVAL ha presentato questi concetti in un workshop incentrato sul World Wide Voice Web.
La conferenza ha coinvolto relatori del mondo accademico e industriale, con esperienza relativamente al Machine Learning, al Natural Language Processing (NLP), all'interazione uomo-macchina e ai dispositivi IoT.
Il centro della discussione ha riguardato la costruzione di un ecosistema vocale, di agenti preformanti e del valore sociale di una rete vocale. Il team di Stanford ha condotto anche una dimostrazione dal vivo di Genie.
We want other people to join us in building the World Wide Voice Web. The original World Wide Web grew slowly at the beginning, but once it caught on there was no stopping it. We hope to see the same with the World Wide Voice Web.
Aggiornamento del 15/11/2021
La conferenza è stata pubblicata in versione integrale (oltre 8 ore di workshop) ed è disponibile attraverso il video che segue.