
MADRID, 25 (Portaltic/EP)
DeepSeek ha lanzado la última versión de su modelo V3-0324, una actualización que introduce mejoras en rendimiento, responde con mayor precisión a la llamada de funciones y ofrece interfaces más estéticas que su predecesor, algo que ya han comprobado algunos expertos en equipos Mac Studio con chip M3.
DeepSeek V3, lanzado en diciembre del año pasado, se entrenó con 671.000 millones de parámetros con arquitecutura Mixture of Experts (MoE), que divide un modelo de IA en pequeñas redes neuronales para que actúen de forma separada, como si fueran distintos aspectos.
El modelo también dispone de 37.000 millones de parámetros activados para cada token y, para “lograr una inferencia eficiente y una capacitación rentable”, sus responsables recurrieron al mecanismo de atención latente multicabezal (MLA), tal y como explicaron entones en GitHub.
De este modo, DeepSeek V3 alcanza una puntuación de 75.9 frente al 78.0 de Claude 3.5 Sonnet, el 72.6 de GPT 4o y el 73.3 de Llama 3.1 40B. Esto significa que el modelo es capaz de superar a otros de código abierto y logra un rendimiento comparable al de los principales modelos de código cerrado.
Los responsables han compartido recientemente una actualización de V3 en Hugging Face. Se trata de V3-0324, una versión que “demuestra mejoras notables sobre su predecesor en varios aspectos clave”, tal y como han señalado en esta publicación.
En primer lugar, brinda mejoras “significativas” en el rendimiento de referencia, con valores como un 81,2 en la evaluación de comprensión del lenguaje (MMLU-Pro), frente al 75.9 de V3; un 59,4 en AIME (frente a un 39,6) y un 49,2 en LiveCodeBench (frente a 39,2).
Por otra parte, esta actualización ofrece páginas web y ‘front-ends’ de juegos más estéticamente agradables y tiene una “mayor precisión en la llamada de funciones”, de modo que soluciona algunos de los problemas advertidos en versiones anteriores del modelo de lenguaje.
Asimismo, adquiere nuevas competencias en la lengua china, con un estilo mejorado -alineado con el estilo de escritora R1- y una mejor calidad en textos de formato medio a largo. Además, se ha optimizado la reescritura interactiva multi-turno y la calidad de la traducción y la redacción de cartas optimizadas.
El investigador experto en aprendizaje automático de Apple Awni Hanun ha tenido la oportunidad de probar el nuevo modelo de DeepSeek en un ordenador Mac Studio de Apple con chip M3 y ha celebrado que “en cuatro bits ejecuta a más de 20 tokens por segundo”.
Por su parte, el programador británico Simon Willison ha indicado que el nuevo DeepSeek V3-0324 es “un monstruo con licencia MIT de 641 GB, que se puede ejecutar en un Mac Studio M3 de 512 GB de nivel de consumidor”.
- Te recomendamos -