Inicio España EuroBERT es un modelo de codificador multilingüe creado para mejorar el rendimiento...

EuroBERT es un modelo de codificador multilingüe creado para mejorar el rendimiento en todos los idiomas europeos

0

MADRID, 11 (Portaltic/EP)

Hugging Face ha presentado EuroBERT, una familia de modelos de codificadores multilingües de nueva generación, diseñados para mejorar el rendimiento en todas las lenguas europeas y en las más habladas del mundo, que está optimizado para tareas a nivel de documento y destaca incluso en razonamiento matemático.

EuroBERT representa “un gran paso adelante” en este tipo de modelos y “establece nuevos puntos de referencia en múltiples tareas”, según han señalado desde Hugging Face, que han adelantado que se puede utilizar en tareas de investigación y en aplicaciones industriales.

Esta familia de modelos está planteada para ampliar los límites del rendimiento en idiomas europeos y de uso generalizado en todo el mundo, así como para mejorar el rendimiento en todas las lenguas habladas en Europa y en las más habaldas del mundo. También introduce varias innovaciones en la arquitectura de modelos, la metodología de entrenamiento y la conservación de conjuntos de datos.

Asimismo, aprovecha los conocimientos de los modelos generativos modernos y ofrece “un rendimiento de vanguardia”, conservando la eficiencia y la solidez de las arquitecturas basadas en codificadores; y se ha optimizado para tareas a nivel de documento.

Leer más:  La cifra de niños rohingyas con desnutrición aguda grave en los campamentos de Bangladesh ha aumentado un 27%

De esta manera, admite secuencias de contexto largo de hasta 8.192 tokens y destaca en recuperación miltilingüe, clasificación, regresión e, incluso, razonamiento matemático y de código. También mejora los modelos de codificadores multilingües tradicionales, como XLM-RoBERTa y mGTE.

Hugging Face también ha avanzado que EuroBERT se ha entrenado con un conjunto de datos de 5 billones de tokens, que abarca 15 idiomas, e incorpora atención de consultas agrupadas y conjuntos de datos para matemáticas y lenguajes de programación, para mejorar las capacidades de razonamiento.

En cuanto a la metodología de formación, los responsables de este modelo han indicado que éste aprende estructuras lingüísticas utilizando un objetivo de modelado de lenguaje enmascarado (MLM) y aprovechando datos multilingües de alta calidad. Una vez superada esa fase, ajusta la combinación de datos y perfecciona el entrenamiento, para lograr un rendimiento óptimo en el futuro.

Gracias a eso, garantiza una alta adaptabilidad a múltiples tareas de procesamiento de lenguaje natural y “logra resultados de vanguardia” en un conjunto diverso de tareas de procesamiento de lenguaje natural (PNL) multilingües. De esta manera, “muestra sólidos resultados en la búsqueda de código (CodeSearchNet) y el razonamiento matemático (MathShepherd) y supera a modelos existentes en tareas de clasificación y búsqueda de documentos.

Leer más:  El director de Valgrande-Pajares afirma que el Principado tenía conocimiento de la situación del jefe de explotación desde 2019

Cabe apuntar que esta familia se ha desarrollado gracias a la colaboración de diferentes instituciones de investigación y socios industriales, como MICS de CentraleSupélec, Diabolocom, Artefact y Unbabel, así como las tecnológicas AMD y CINES, según se ha expuesto en el comunicado.


- Te recomendamos -