Dos equipos científicos distintos recuperan el habla de un paciente con ELA y de otra que sufrió un ictus

La Voz REDACCIÓN / AGENCIAS

ACTUALIDAD

El dispositivo sintetiza la voz a partir de los mensajes que envía el cerebro
El dispositivo sintetiza la voz a partir de los mensajes que envía el cerebro Nature

Los neuroimplantes y la inteligencia artificial han multiplicado las posibilidades de estas terapias

24 ago 2023 . Actualizado a las 09:11 h.

Investigadores de la Universidad de Stanford (Estados Unidos) han desarrollado unos implantes cerebrales y software que plasman en la pantalla del ordenador las palabras de una persona con discapacidad del habla a causa de la ELA. Paralelamente, Investigadores de la Universidad de California en San Francisco y de la Universidad de Berkeley, en Estados Unidos, han desarrollado una interfaz cerebro-ordenador (BCI, por sus siglas en inglés) que ha permitido hablar a través de un avatar digital a una mujer con parálisis grave provocada por un derrame cerebral.

El primero de los estudios, publicado en la revista Nature, se basa en el hecho de que el cerebro recuerda cómo formular palabras aunque los músculos responsables de pronunciarlas en voz alta estén incapacitados, Ahora esta nueva conexión cerebro-ordenador hace realidad el sueño de recuperar el habla en pacientes que la han perdido.

Pat Bennett, de 68 años, a quien en 2012 le diagnosticaron esclerosis lateral amiotrófica (ELA), es uno de los pacientes que está probando estos implantes. Concretamente lleva implantados cuatro sensores en su cerebro para tratar la pérdida de la capacidad de hablar de forma inteligible. Los dispositivos transmiten señales de un par de regiones del cerebro de Bennett relacionadas con el habla a un software de última generación que descodifica su actividad cerebral y la convierte en texto que se muestra en la pantalla de un ordenador.

«Cuando uno piensa en la ELA, piensa en el impacto en brazos y piernas --escribe Bennett en una entrevista realizada por correo electrónico--, pero en un grupo de pacientes de ELA, comienza con dificultades en el habla. Yo soy incapaz de hablar».

Normalmente, la ELA se manifiesta primero en la periferia del cuerpo: brazos y piernas, manos y dedos. En el caso de Bennett, el deterioro no empezó en la médula espinal, como es típico, sino en el tronco encefálico. Aún puede moverse, vestirse y escribir con los dedos, aunque cada vez con más dificultad, pero ya no puede utilizar los músculos de los labios, la lengua, la laringe y las mandíbulas para enunciar con claridad los fonemas. Aunque el cerebro de Bennett todavía puede formular instrucciones para generar esos fonemas, sus músculos no pueden ejecutar las órdenes.

El 29 de marzo de 2022, un neurocirujano de Stanford Medicine colocó dos diminutos sensores cada uno en dos regiones distintas implicadas en la producción del habla a lo largo de la superficie del cerebro de Bennett. Los sensores son componentes de una interfaz cerebro-ordenador intracortical (iBCI). Combinados con un software de descodificación de última generación, están diseñados para traducir la actividad cerebral que acompaña a los intentos de habla en palabras en una pantalla.

Aproximadamente un mes después de la operación, un equipo de científicos de Stanford empezó a realizar sesiones de investigación dos veces por semana para entrenar el software que interpretaba su habla. Al cabo de cuatro meses, los intentos de Bennett se convertían en palabras en la pantalla de un ordenador a una velocidad de 62 palabras por minuto, más del triple del récord anterior de comunicación asistida por ICB.

«Estos resultados iniciales han probado el concepto, y con el tiempo la tecnología se pondrá al día para hacerlo fácilmente accesible a las personas que no pueden hablar --escribe Bennett--. Para quienes no hablan, esto significa que pueden seguir conectados con el mundo en general, tal vez seguir trabajando, mantener amistades y relaciones familiares».

El ritmo de Bennett empieza a aproximarse al de una conversación natural entre angloparlantes, de unas 160 palabras por minuto, explica el doctor Jaimie Henderson, cirujano que llevó a cabo la intervención, catedrático John y Jean Blume-Robert y Ruth Halperin del departamento de neurocirugía.

En 2021, Henderson, y sus coautores Krishna Shenoy, profesor de ingeniería eléctrica y bioingeniería, y Frank Willett, doctor y científico del Instituto Médico Howard Hughes afiliado al Neural Prosthetics Translational Lab, fueron coautores de un estudio publicado en 'Nature' en el que describían su éxito a la hora de convertir la escritura imaginaria de una persona paralítica en texto en una pantalla utilizando un iBCI, alcanzando una velocidad de 90 caracteres, o 18 palabras, por minuto, un récord mundial hasta la fecha para una metodología relacionada con el iBCI.

En 2021, Bennett se enteró del trabajo de Henderson y Shenoy. Se puso en contacto con Henderson y se ofreció voluntaria para participar en el ensayo clínico.

Los sensores que Henderson implantó en la corteza cerebral de Bennett, la capa más externa del cerebro, son matrices cuadradas de diminutos electrodos de silicio. Cada matriz contiene 64 electrodos, dispuestos en cuadrículas de 8 por 8 y separados entre sí por una distancia aproximada de la mitad del grosor de una tarjeta de crédito. Los electrodos penetran en la corteza cerebral a una profundidad aproximadamente igual a la de dos monedas de 25 centavos apiladas.

Las matrices implantadas están unidas a finos hilos de oro que salen a través de pedestales atornillados al cráneo, los cuales se conectan por cable a un ordenador.

Un algoritmo de inteligencia artificial recibe y descodifica la información electrónica que emana del cerebro de Bennett y acaba aprendiendo a distinguir la actividad cerebral asociada a sus intentos de formular cada uno de los 39 fonemas que componen el inglés hablado.

«Este sistema está entrenado para saber qué palabras deben ir antes que otras y qué fonemas forman qué palabras —explica Willett—. Si algunos fonemas se interpretan mal, aún puede hacer una buena conjetura».

Para enseñar al algoritmo a reconocer los patrones de actividad cerebral asociados a cada fonema, Bennett se sometió a unas 25 sesiones de entrenamiento, de unas cuatro horas de duración cada una, durante las cuales intentó repetir frases elegidas al azar de un gran conjunto de datos formado por muestras de conversaciones entre personas que hablaban por teléfono.

Mientras intentaba recitar cada frase, la actividad cerebral de Bennett, traducida por el descodificador a un flujo de fonemas y luego ensamblada en palabras por el sistema de autocorrección, aparecía en la pantalla debajo del original. A continuación, aparecía una nueva frase en la pantalla. Todo el sistema fue mejorando a medida que se familiarizaba con la actividad cerebral de Bennett durante sus intentos de habla.

La capacidad de traducción del iCBI se probó con frases distintas de las utilizadas en las sesiones de entrenamiento. Cuando las frases y el modelo lingüístico de ensamblaje de palabras se limitaron a un vocabulario de 50 palabras (en cuyo caso las frases utilizadas se extrajeron de una lista especial), la tasa de error del sistema de traducción fue del 9,1%.

Cuando el vocabulario se amplió a 125.000 palabras, lo suficientemente grande como para componer casi cualquier cosa que se quiera decir, el porcentaje de error subió al 23,8%: lejos de la perfección, pero un paso de gigante respecto al estado anterior de la técnica.

«Se trata de una prueba científica de concepto, no de un dispositivo real que la gente pueda utilizar en la vida cotidiana --precisa Willett--, pero es un gran avance hacia el restablecimiento de una comunicación rápida para las personas con parálisis que no pueden hablar».

El dispositivo tiene licencia para uso exclusivo en investigación y no está disponible comercialmente. El estudio, un ensayo clínico registrado, se llevó a cabo bajo los auspicios de BrainGate, un consorcio multiinstitucional dedicado a avanzar en el uso de ICB en aplicaciones protésicas, dirigido por el coautor del estudio Leigh Hochberg, neurólogo e investigador afiliado al Hospital General de Massachusetts, la Universidad Brown y el Sistema Sanitario VA Providence.

Por su parte, el trabajo de los investigadores de Berkeley y San Francisco ha logrado sintetizar por primera vez 

Es la primera vez que se sintetizan el habla y las expresiones faciales a partir de señales cerebrales, aseguran los investigadores en la revista 'Nature'. El sistema también puede decodificar estas señales en texto a casi 80 palabras por minuto, lo que supone una gran mejora respecto a la tecnología disponible en el mercado.

El doctor Edward Chang, catedrático de cirugía neurológica de la UCSF, que lleva más de una década trabajando en esta tecnología, conocida como interfaz cerebro-ordenador (BCI, por sus siglas en inglés), espera que este último avance de la investigación conduzca en un futuro próximo a un sistema aprobado por la FDA que permita hablar a partir de señales cerebrales.

«Nuestro objetivo es restablecer una forma de comunicación plena y corporal, que es realmente la forma más natural de hablar con los demás --afirma Chang, miembro del Instituto Weill de Neurociencia de la UCSF y Catedrático Distinguido de Psiquiatría Jeanne Robertson--. Estos avances nos acercan mucho más a convertirlo en una solución real para los pacientes».

El equipo de Chang demostró anteriormente que era posible descodificar las señales cerebrales en texto en un hombre que también había sufrido un ictus en el tronco encefálico muchos años antes. El estudio actual demuestra algo más ambicioso: descodificar las señales cerebrales en la riqueza del habla, junto con los movimientos que animan el rostro de una persona durante la conversación.

Chang implantó un rectángulo fino como el papel de 253 electrodos en la superficie del cerebro de la mujer, en zonas que su equipo ha descubierto que son fundamentales para el habla.

Los electrodos interceptaron las señales cerebrales que, de no haber sido por el ictus, habrían ido a parar a los músculos de la lengua, la mandíbula y la laringe, así como a la cara. Un cable, conectado a un puerto fijado a su cabeza, conectaba los electrodos a un banco de ordenadores.

Durante semanas, la participante trabajó con el equipo para entrenar los algoritmos de inteligencia artificial del sistema a reconocer sus señales cerebrales únicas para el habla. Para ello, repitió una y otra vez distintas frases de un vocabulario conversacional de 1.024 palabras, hasta que el ordenador reconoció los patrones de actividad cerebral asociados a los sonidos.

En lugar de entrenar a la IA para que reconociera palabras enteras, los investigadores crearon un sistema que descodifica palabras a partir de fonemas. Éstos son las subunidades del habla que forman palabras habladas del mismo modo que las letras forman palabras escritas. «Hola», por ejemplo, contiene cuatro fonemas: «HH», «AH», «L» y «OW».

Con este método, el ordenador sólo necesitaba aprender 39 fonemas para descifrar cualquier palabra en inglés. Esto mejoró la precisión del sistema y lo hizo tres veces más rápido.

«La precisión, la velocidad y el vocabulario son cruciales —asegura Sean Metzger, que desarrolló el descodificador de texto junto con Alex Silva, ambos estudiantes de posgrado del Programa Conjunto de Bioingeniería de la UC Berkeley y la UCSF—. Es lo que da a un usuario la posibilidad, con el tiempo, de comunicarse casi tan rápido como nosotros y mantener conversaciones mucho más naturalistas y normales».

Para crear la voz, el equipo ideó un algoritmo para sintetizar el habla, que personalizaron para que sonara como la voz de Ann antes de la lesión, utilizando una grabación de Ann hablando en su boda.

El equipo animó el avatar con la ayuda de un software que simula y anima los movimientos musculares de la cara, desarrollado por Speech Graphics, una empresa que realiza animaciones faciales basadas en IA.

Los investigadores crearon procesos personalizados de aprendizaje automático que permitieron al software de la empresa engranar las señales que enviaba el cerebro de la mujer mientras intentaba hablar y convertirlas en los movimientos de la cara del avatar, haciendo que la mandíbula se abriera y cerrara, los labios sobresalieran y se fruncieran y la lengua subiera y bajara, así como los movimientos faciales de felicidad, tristeza y sorpresa.

«Estamos compensando las conexiones entre el cerebro y el tracto vocal interrumpidas por el ictus --explica Kaylo Littlejohn, estudiante de posgrado que trabaja con Chang y el doctor Gopala Anumanchipalli, catedrático de Ingeniería Eléctrica e Informática de la UC Berkeley--. Cuando el sujeto utilizó por primera vez este sistema para hablar y mover la cara del avatar a la vez, supe que esto iba a ser algo que tendría un impacto real».

Un próximo paso importante para el equipo es crear una versión inalámbrica que no requiera que el usuario esté físicamente conectado a la BCI.

«Dar a las personas la capacidad de controlar libremente sus propios ordenadores y teléfonos con esta tecnología tendría profundos efectos en su independencia y sus interacciones sociales», concluye David Mo.