Excodra Barcelonra
UPF (Universitat Pompeu Fabra)

UPF (Universitat Pompeu Fabra)

La UPF es una universidad joven, pública y moderna, creada en 1990 con voluntad de convertirse en una universidad de referencia en Europa. Distinguida por el Ministerio de Educación como Campus de Excelencia Internacional (CEI), los indicadores en docencia, investigación e internacionalización de la UPF avalan su posición como centro de referencia dentro del sistema español y europeo. Asimismo, en los últimos años la Universidad ha comenzado a aparecer con fuerza en rankings de prestigio internacional. Dirección: Plaça de la Mercè, 10, 08002 Barcelona. Teléfono: 935 42 20 00. www.upf.edu/es

Cómo la lingüística computacional ayuda a entender el funcionamiento del lenguaje

Fuente: UPF | Publicado: 26-02-2020
Un artículo de Gemma Boleda, profesora de investigación ICREA del Departamento de Traducción y Ciencias del Lenguaje, en el que ha hecho una revisión crítica de los trabajos existentes sobre semántica distribucional, y que ha publicado en la revista Annual Review of Linguistics.
Derechos: Visualización bidimensional del cambio de significado de tres palabras inglesas, reproducida de Hamilton y otros (2016).
0 comentarios

La semántica distribucional obtiene representaciones del significado de las palabras a partir de procesar miles de textos y extraer generalizaciones mediante algoritmos computacionales. A pesar de la popularidad de la semántica distribucional en campos como la lingüística computacional y la ciencia cognitiva, su impacto en lingüística teórica hasta ahora ha sido muy limitado.


El trabajo de Gemma Boleda, coordinadora del grupo de investigación en Lingüística Computacional y Teoría del Lenguaje (COLT) y profesora de investigación ICREA del Departamento de Traducción y Ciencias del Lenguaje de la UPF, publicado en la revista  Annual Review of Linguistics, aporta un revisión crítica de los abundantes trabajos disponibles sobre semántica distribucional, poniendo especial énfasis en los resultados que son relevantes para la lingüística teórica, concretamente en tres ámbitos: cambio semántico, polisemia y composición, e interfaz gramática-semántica.



"He defendido que la naturaleza multidimensional y empírica de las representaciones son aspectos clave que contribuyen al éxito de la semántica distribucional", explica Boleda



La investigación de la autora tiene como objetivo poner en conexión enfoques teóricos y computacionales para avanzar en el conocimiento colectivo sobre el funcionamiento del lenguaje. Uno de los métodos que ha investigado extensivamente es el de la semántica distribucional, que permite obtener representaciones de palabras de manera automática. Se ha demostrado que estas representaciones reflejan propiedades lingüísticas significativas, tales como, cómo son de similares dos palabras: una persona te dirá que "perro" y "cachorro" son muy similares, y en cambio "perro" y "democracia" no lo son mucho; la semántica distribucional responde lo mismo, gracias a que induce propiedades lingüísticas a partir de textos escritos por personas. Por ello, la semántica distribucional proporciona representaciones radicalmente empíricas.


La semántica distribucional permite analizar el uso de las palabras y la evolución de su significado


La semántica distribucional proporciona un marco atractivo y complementario a otros métodos más tradicionales, no sólo debido a que es radicalmente empírica sino también por el hecho de que proporciona representaciones multidimensionales: dos palabras se pueden parecer en una dimensión de significado ("pizza" y "pasta" son tipos de comida), o en otra ("pizza" y "rueda" son redondos). Para representar todos los aspectos de significado, se necesitan representaciones multidimensionales. La semántica distribucional puede capturar los usos comunes de dos palabras, así como también sus factores diferenciales.



Una de las aplicaciones relevantes de la semántica distribucional a la lingüística teórica es la detección de cambios de significado. Si se procesan datos lingüísticos de épocas diferentes, tales como libros en inglés de 1900, de 1950, y del 1990, se puede usar la semántica distribucional para detectar automáticamente el cambio de significado que presentan algunas palabras. Por ejemplo, la palabra "gay" en inglés a principios del siglo pasado quería decir "alegre", y progresivamente se ha ido utilizando más para querer decir "homosexual".



Aspectos de la investigación en semántica distribucional que contribuyen a la teoría del lenguaje


Del análisis de los trabajos estudiados en su estudio concluye Boleda que hay suficiente evidencia para que los sólidos resultados obtenidos en semántica distribucional se puedan importar directamente a la investigación en lingüística teórica.


"Hay al menos cuatro aspectos de la investigación en semántica distribucional que pueden contribuir a la teoría lingüística. El primer aspecto es el exploratorio: las representaciones distribucionales pueden utilizarse para explorar datos a gran escala, por ejemplo examinando las relaciones de similitud entre palabras. El segundo es como herramienta para identificar casos de fenómenos lingüísticos específicos. Por ejemplo, se pueden identificar palabras que han cambiado de significado comparando las representaciones obtenidas a partir de textos de diferentes épocas. El tercero es como banco de pruebas: evaluando diferentes hipótesis lingüísticas en términos distribucionales. El cuarto, y más difícil, es el descubrimiento de nuevos fenómenos lingüísticos o tendencias teóricas relevantes en los datos", explica en su trabajo la autora.


Trabajo de referencia: Gemma Boleda (2020), “Distributional Semantics and Linguistic Theory”, Annual Review of Linguistics, enero, vol (6), pp. 213-234, https://doi.org/10.1146/annurev-linguistics-011619-030303
Comentarios:
4