PATROCINADORES
INSTITUCIONES
Junta castilla
jcm
Junta Extremadura

Archiletras

Elena Álvarez Mellado

Lingüista computacional. Estudiante de postgrado en la Universidad Brandeis (Massachussets). Premio Nacional de Periodismo Miguel Delibes 2018. Ha trabajado en proyectos de tecnología lingüística en la UNED, para Fundéu y en Molino de Ideas.

02 Ene 2020
Compartir
Firmas

La irresistible agramaticalidad del teclado predictivo

Por las redes pulula desde hace tiempo un meme que se repite aquí y allá con distintas temáticas pero una misma estructura: Escribe [cierta palabra] y deja que el teclado predictivo complete la frase. La diversión radica en que las respuestas del teclado predictivo varían entre individuos (dependiendo de lo que cada usuario suela escribir en su móvil), aliñado con la habitual dosis de impredecibilidad y sinsentido lingüístico con la que los teclados predictivos suelen deleitarnos. El meme se ha hecho tan popular que, cuando algún político o tuitero suelta algún galimatías carente de sentido, los tuiteros no tardan en salir a hacer mofa y atribuir al teclado predictivo el mensaje incomprensible.

El funcionamiento del teclado predictivo es más o menos evidente: dada una sucesión de palabras, el teclado nos sugiere la siguiente palabra más probable que continúe la frase que estamos escribiendo. Ante una secuencia como «Llego un poco…» el teclado seguramente nos sugerirá «tarde» como siguiente palabra más probable. La manera en que el teclado predictivo establece ese ranking de probabilidades que hace que nos sugiera «tarde» (y no algo totalmente inadecuado, como «glandular», «troglodita» o «nunca») es a partir de los datos de frecuencia previamente observados. Si partimos de una colección suficientemente amplia y representativa de textos (lo que en lingüística se conoce como un corpus), podemos contar el número de apariciones de determinadas secuencias de palabras, establecer cuánto de frecuentes son unas frente a otras y concluir que efectivamente la secuencia «Llego un poco tarde» es la más probable.

Aunque los teclados predictivos son herramientas útiles y fascinantes, tienen limitaciones evidentes. El cachondeíto tuitero que ha dado pie al meme de «y deja que el teclado predictivo complete la frase» refleja la experiencia colectiva de usar el teclado predictivo y obtener un engendro lingüístico que jamás produciría un hablante: y es que, dejado a su libre albedrío, un teclado predictivo producirá una concatenación de secuencias que quizá separadamente sean probables, pero que en conjunto resultan agramaticales (es decir, antinaturales e inaceptables para cualquier hablante competente).

¿Por qué el teclado tiene esa incapacidad para producir oraciones aceptables? ¿Por qué no basta con concatenar secuencias de palabras frecuentes para producir oraciones gramaticalmente válidas? La agramaticalidad tan característica de las creaciones del teclado predictivo es, en realidad, un buen ejemplo cotidiano de un fenómeno que señaló Chomsky en 1957 al hablar sobre gramaticalidad (es decir, la capacidad de un hablante para distinguir una frase gramaticalmente aceptable de la que no lo es). Lo que Chomsky venía a decir es que no es posible dar cuenta de la gramaticalidad de una oración a partir de una aproximación probabilística al lenguaje (como la que hacen los teclados predictivos). Si nos atenemos exclusivamente a la frecuencia de aparición en un corpus, una oración como «Las ideas verdes incoloras duermen furiosamente» (semánticamente estrafalaria, sí, pero perfectamente válida en términos sintácticos) sería considerada tan improbable como una oración genuinamente agramatical como «Furiosamente duermen incoloras verdes ideas las». Chomsky apunta que, aunque la primera oración pueda ser absurda en términos semánticos e improbable en términos de frecuencia, un hablante nativo percibirá la primera opción como gramaticalmente posible (aunque le resulte semánticamente opaca), mientras que la segunda la percibirá como un galimatías gramaticalmente inaceptable. La gramaticalidad de una oración no reside, por tanto, en cuánto de frecuente o probable es, sino en que su estructura obedezca a las reglas gramaticales de esa lengua. Esta idea, formulada por Chomsky en Estructuras sintácticas, pondría patas arriba el estudio del lenguaje y el ejemplo chomskyano «Las ideas verdes incoloras duermen furiosamente» (en el inglés original, Colorless green ideas sleep furiously) es hoy casi un fetiche dentro del gremio de la Lingüística.

Y es que las frases que producimos no se articulan siguiendo una lógica lineal de palabras ensartadas como cuentas de un collar, sino que se rigen siguiendo una estructura jerárquica. Pongamos una oración como «La chica dijo que vendría». En principio, nada impide que alarguemos la frase añadiendo nuevas constituyentes: «La chica del pelo largo dijo que vendría», «La chica del pelo largo que iba con unos amigos dijo que vendría», «La chica del pelo largo que iba con unos amigos que había conocido en la universidad dijo que vendría». El juego de matrioskas sintácticas puede crecer indefinidamente, alejando cada vez más al sujeto (la chica) de su verbo (dijo). Y no importará cuánto de lejos en términos lineales esté el sujeto de su verbo, ni que haya otros elementos intercalados que tengan otro número gramatical: la relación sintáctica (y, por tanto, la concordancia gramatical) entre la chica y dijo se mantendrá inalterada. Los fenómenos de concordancia gramatical y dependencias sintácticas pueden darse, pues, entre elementos que no estén en el contexto lineal inmediato: lo que para un sistema que concatena secuencias puede parecer un abismo, para un hablante competente son relaciones sintácticas naturales que están a tan solo un par de escalones de distancia en la estructura jerárquica de la oración.

La agramaticalidad ya proverbial de las producciones del teclado predictivo puede parecernos una curiosidad intrascendente, pero esta situación cotidiana pone de manifiesto algo extraordinario y casi paradójico: nuestra fascinante capacidad como humanos para producir construcciones lingüísticas sofisticadas y complejas sin apenas esfuerzo, y la enorme dificultad para simular o reproducir artificialmente aquello que como hablantes hacemos con toda naturalidad.

 

Para saber más
Chomsky, N. (1957). Syntactic Structures. Mouton.

Everaert, M. B., Huybregts, M. A., Chomsky, N., Berwick, R. C., & Bolhuis, J. J. (2015). Structures, Not Strings: Linguistics as Part of the Cognitive Sciences. Trends in Cognitive Sciences.

Gulordava, K., Bojanowski, P., Grave, E., Linzen, T., & Baroni, M. (2018, June). Colorless Green Recurrent Networks Dream Hierarchically. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.

Pereira, F. (2000). Formal Grammar and Information Theory: Together Again? Philosophical Transactions of the Royal Society of London. Series A: Mathematical, Physical and Engineering Sciences.

 

Este artículo de Elena Álvarez Mellado es uno de los contenidos del número 5 de la publicación trimestral impresa Archiletras / Revista de Lengua y Letras.
Si desea suscribirse o adquirir números sueltos de la revista, puede hacerlo aquí https://suscripciones. archiletras.com/

+ DE ESTE AUTOR

La irresistible agramaticalidad del teclado predictivo

Elena Álvarez Mellado

Leer >

La irresistible agramaticalidad del teclado predictivo

Elena Álvarez Mellado

Leer >

La irresistible agramaticalidad del teclado predictivo

Elena Álvarez Mellado

Leer >