Estudio comparativo de métricas de  evaluación automática y evaluación  humana de la calidad de la  traducción automática de patentes

Picallo González, Clara Beatriz

Inici
→
Docència
→
Treballs de l'alumnat
→
Treballs de Fi de Màster
→
Màster Universitari en Traducció Especialitzada
→
Visualitza el document

dc.contributor	Universitat de Vic - Universitat Central de Catalunya. Facultat d'Educació, Traducció i Ciències Humanes
dc.contributor	Universitat de Vic - Universitat Central de Catalunya. Màster en Traducció Especialitzada
dc.contributor.author	Picallo González, Clara Beatriz
dc.date.accessioned	2022-01-14T12:20:46Z
dc.date.available	2022-01-14T12:20:46Z
dc.date.created	2021-09-03
dc.date.issued	2021-09-03
dc.identifier.uri	http://hdl.handle.net/10854/6920
dc.description	Curs 2020-2021	es
dc.description.abstract	La traducción automática basada en redes neuronales ha supuesto una revolución desde su introducción en torno al año 2014, ya que ha proporcionado una gran mejora de la calidad de las traducciones en comparación con los métodos de traducción automática utilizados anteriormente (Kinoshita et al., 2017). La calidad de las traducciones automáticas se puede medir a través de una evaluación humana o utilizando métricas de evaluación automática. Dada la laboriosidad de la evaluación humana, su escaso margen de automatización y la necesidad de un elevado número de participantes en los estudios para compensar su inherente subjetividad, las métricas de evaluación automática suponen un elemento de gran importancia tanto para los desarrolladores de motores de traducción automática como para sus usuarios. Las métricas de evaluación automática comparan una traducción automática de un texto con una traducción de referencia de ese mismo texto y proporcionan un valor numérico representativo de su calidad. Existen numerosas métricas de evaluación automática y cada año surgen nuevas propuestas de métricas originales o versiones de las métricas ya consideradas estándar (Ma et al., 2019). Sin embargo, desde la perspectiva del usuario de traducción automática, BLEU (Papineni et al., 2002) parece ser todavía la métrica más popular y accesible. Idealmente, tanto un método de evaluación humana como un método de evaluación automática deberían proporcionar la misma apreciación de la calidad de una misma traducción automática. Sin embargo, las métricas de evaluación automática más utilizadas actualmente, como BLEU, parecen ser más adecuadas para la evaluación de los antiguos métodos estadísticos de traducción automática que para la evaluación de las traducciones realizadas por los actuales motores de traducción automática basados en redes neuronales (Shterionov et al., 2018) y en los últimos años han surgido varios estudios en los que se analizan los problemas de los que adolecen algunas de ellas (Mathur et al., 2020a). La literatura de patentes ofrece un entorno excelente para el estudio de las métricas de evaluación automática de la calidad de las traducciones automáticas, ya que es relativamente sencillo encontrar una misma patente traducida profesionalmente a un 4 gran número de lenguas y, por lo tanto, es posible utilizar estas traducciones como traducciones de referencia. En este estudio utilizaremos estas traducciones de referencia para evaluar la calidad de las traducciones automáticas de varias patentes utilizando dos motores de traducción automática pensados para la traducción de textos generales, Google Translate y DeepL, así como dos motores de traducción automática diseñados y entrenados específicamente para literatura de patentes, WIPO Translate (Pouliquen, 2017) y EPO Translate. Para ello utilizaremos varias de las métricas de evaluación automática consideradas estándar y otras métricas de evaluación automática introducidas más recientemente y llevaremos a cabo una evaluación y comparación de la información suministrada por ellas. Asimismo, llevaremos a cabo una evaluación humana y analizaremos la correlación entre estas métricas de evaluación automática y los resultados obtenidos mediante la evaluación humana, así como su utilidad a la hora de valorar diversos motores de traducción automática en el marco de la traducción y posedición profesional de patentes.	es
dc.description.abstract	Neural network-based machine translation started a revolution since its introduction around 2014, providing a great improvement in translation quality compared to previously used machine translation methods (Kinoshita et al., 2017). The quality of machine translations can be measured through human evaluation or using machine evaluation metrics. Given the laboriousness of human evaluation, its low margin for automation, and the need for a high number of study participants to compensate for its inherent subjectivity, automatic evaluation metrics might be a key element for both machine translation engine developers and their users. Automatic evaluation metrics compare a machine translation of a text with a reference translation of the same text and provide a numerical value representative of its quality. Numerous machine evaluation metrics exist, and new proposals for original metrics or versions of metrics already considered standard emerge every year (Ma et al., 2019). However, from the machine translation user's perspective, BLEU (Papineni et al., 2002) still seems to be the most popular and accessible metric. Ideally, both a human evaluation method and a machine evaluation method should provide the same appreciation of the quality of the same machine translation. However, the most widely used metrics, such as BLEU, seem to be more suitable for the evaluation of the older statistical machine translation methods than for the evaluation of neural translations (Shterionov et al., 2018) and several studies have emerged in recent years analyzing the problems that some of them suffer from (Mathur et al., 2020a). The patent literature provides an excellent framework for the study of machine translation quality assessment metrics, as it is relatively easy to find the same patent professionally translated into a large number of languages and it is therefore possible to use these translations as reference translations. In this study we use these reference translations to assess the quality of machine translations of several patents performed using two machine translation engines intended for general text translation, Google Translate and DeepL, as well as two machine translation engines designed and trained specifically for patent literature, WIPO Translate (Pouliquen, 2017) and EPO Translate. For this purpose, we use several of the machine evaluation metrics considered standard and other machine evaluation metrics introduced more recently and carry out an evaluation and comparison of the information provided by them. We also carry out a human evaluation and analyze the correlation between these machine evaluation metrics and the results obtained through human evaluation, as well as their usefulness when evaluating various machine translation engines in the context of professional patent translation and post-edition.	es
dc.format	application/pdf	es
dc.format.extent	71 p.	es
dc.language.iso	spa	es
dc.rights	Tots els drets reservats	es
dc.subject.other	Traducció i interpretació	es
dc.subject.other	Traducció automàtica	es
dc.subject.other	Investigació -- Avaluació	es
dc.subject.other	Qualitat (Lingüística)	es
dc.subject.other	Tractament de textos	es
dc.title	Estudio comparativo de métricas de evaluación automática y evaluación humana de la calidad de la traducción automática de patentes	es
dc.type	info:eu-repo/semantics/masterThesis	es
dc.description.version	Director/a: Carla Parra Escartín
dc.rights.accessRights	info:eu-repo/semantics/closedAccess	es