Neurociência Breakthrough: AI traduz pensamento para fala

A Interface Cérebro-Computador da Columbia University é o estado da arte.

orla/istockphoto

Fonte: orla / istockphoto

Primeiro, havia o teclado, toque e voz para controlar dispositivos e aplicativos de computação. Qual é o próximo? Pesquisadores do Instituto Mortimer B. Zuckerman Mind Brain Behavior na Universidade de Columbia, em Nova York, anunciou “um primeiro científico” com a invenção de uma interface cérebro-computador (BCI) que traduz o pensamento humano em fala com maior clareza e precisão do que as soluções existentes. A equipe de pesquisa, liderada por Nima Mesgarani, Ph.D., publicou suas descobertas em 29 de janeiro de 2019 em Scientific Reports , uma revista de pesquisa da Nature .

Uma interface cérebro-computador é uma rota de comunicação bidirecional entre um cérebro e um computador. Muitos projetos de pesquisa da BCI são centrados em usos neuroprotéticos para aqueles que perderam ou prejudicaram o movimento, visão, audição ou fala, como aqueles afetados por acidente vascular cerebral, lesões na medula espinhal, esclerose lateral amiotrófica (ALS), afasia (comprometimento da fala devido ao cérebro lesão), lesão coclear e síndrome do encarceramento.

Até este avanço marcante, o processo de decodificação de sinais cerebrais usava modelos de computação mais simples baseados em regressão linear para analisar as representações visuais de frequências de som (espectrogramas) que produziam fala ininteligível. Mesgarani e sua equipe de pesquisa combinaram as mais recentes tecnologias inovadoras em síntese de fala com o aprendizado profundo de IA para melhorar a inteligibilidade da fala reconstruída, com resultados significativamente melhores.

Mesgarani fez uma parceria com o neurocirurgião Ashesh Dinesh Mehta, MD, Ph.D., no Instituto de Neurociência da Northwell Health Physician Partners para medir as atividades cerebrais de pacientes com epilepsia focal farmacologicamente ativa que já estavam passando por uma cirurgia no cérebro para o estudo.

Eletrocorticografia invasiva (ECoG) foi usada para medir a atividade neural de cinco participantes do estudo, que auto-relataram habilidades auditivas normais, enquanto ouviam quatro falantes apresentando histórias curtas por meia hora. Os padrões neurais gravados foram usados ​​como entrada de dados para treinar um vocoder, um processador de áudio que analisa e sintetiza a voz humana.

Após o treinamento do vocoder, os pesquisadores registraram sinais cerebrais dos mesmos participantes enquanto ouviam os falantes contarem entre zero e nove. Esses sinais cerebrais registrados foram introduzidos através do vocoder, que por sua vez produziu a fala sintetizada. Em seguida, os pesquisadores usaram redes neurais artificiais para refinar a fala produzida pelo vocoder, e então 11 sujeitos com audição normal ouviram a saída.

Os pesquisadores descobriram que o uso de uma rede neural profunda (DNN) com regressão não-linear melhora a inteligibilidade em 67% em relação ao método de base de uso de regressão linear para reconstruir o espectrograma auditivo. Esses participantes puderam entender e repetir os sons gerados com a combinação DNN-vocoder com 75% de precisão. De acordo com os pesquisadores, “as descobertas de estudos mostrando a vantagem superior de modelos de aprendizagem profunda sobre outras técnicas, particularmente quando a quantidade de dados de treinamento é grande” e “aumentando a quantidade de dados de treinamento resulta em melhor precisão de reconstrução”.

Os pesquisadores descobriram uma “estrutura geral que pode ser usada para tecnologias de neuroprótese de fala que pode resultar em fala reconstituída precisa e inteligível a partir do córtex auditivo humano”. Eles vêem seus sistemas cérebro-para-computador como estado-da-arte e “um passo em direção à próxima geração de sistemas de interação humano-computador e canais de comunicação mais naturais para pacientes que sofrem de paralisia e síndromes travadas. ”

O surgimento da aprendizagem profunda da inteligência artificial criou uma fonte de possível avanço científico através das disciplinas – especialmente no campo da neurociência e da engenharia biomédica. No futuro, os dispositivos de computação serão gerenciados pelo pensamento humano?

Copyright © 2019 Cami Rosso Todos os direitos reservados.

Referências

Akbari, Hassan, Khalighinejad, Bahar, Herrero, José L., Mehta, Ashesh D., Mesgarani, Nima. ”Para reconstruir a fala inteligível a partir do córtex auditivo humano.” Relatórios científicos . 29 de janeiro de 2019.