
MADRID, 27 (Portaltic/EP)
Microsoft ha anunciado dos nuevos modelos de lenguaje pequeños (SLM, por sus siglas en inglés) de la familia Phi, Phi-4-multimodal y Phi-4-mini, que están diseñados para brindar a los desarrolladores capacidades de Inteligencia Artificial (IA) avanzadas en tareas de procesamiento de voz, texto e imágenes.
La compañía ha comentado en su blog que estos modelos son “ideales para escenarios extremos y entornos con limitaciones de cómputo” y ya se están utilizando para explorar diferentes casos de uso en diversas industrias, incluida la detección de anomalías en la fabricación o la mejora de las experiencias de los clientes en el comercio minorista.
Phi-4-multimodal es un modelo de 5.600 millones de parámetros, que integra procesamiento de voz, imágenes y texto en una única arquitectura unificada. Debido a que aprovecha técnicas avanzadas de aprendizaje intermodal, permite interacciones “más naturales y sensibles al contexto”, según ha explicado Microsoft.
Este modelo puede procesar tanto imágenes como audio a la vez, así como gráficos, tablas y documentos, superando a modelos especializados como WhisperV3 y SeamlessM4T-v2-Large, en las tareas de reconocimiento automático de voz y traducción. Además, ofrece una inferencia de baja latencia y alta eficiencia mientras se optimiza la ejecución en el dispositivo y se reduce la sobrecarga computacional.
Microsoft también ha señalado que Phi-4-multimodal “se encuentra entre los pocos modelos abiertos que implementan con éxito el resumen de voz” y alcanzan niveles de rendimiento de GPT-4o. No obstante, presenta una brecha con otros modelos como Gemini-2.0-Flash en tareas de respuesta a preguntas, por lo que está trabajando para mejorar esta capacidad en las próximas iteraciones.
Phi-4-mini, por su parte, es un modelo de 3.800 millones de parámetros, con una capacidad de responder a consultas agrupadas, un vocabulario de 200.000 palabras y “está diseñado para la velocidad y la eficiencia”. En este sentido, la marcha ha indicado que, a pesar de que tiene un tamaño compacto, sigue superando a los modelos más grandes en tares basadas en texto, incluido el razonamiento, las matemáticas, el seguimiento de instrucciones y la codificación.
Este modelo admite secuencias de hasta 128.000 tokens y brinda alta precisión y escalabilidad para que los desarrolladores puedan adaptarlo en aplicaciones de IA avanzadas. Además, se puede integrar en interfaces de programación estructuradas.
Microsoft ha señalado finalmente que tanto Phi-4-multimodal como y Phi-4-mini ya están disponibles en Azure AI Foundry, Hugging Face y Nvidia API Catalog, con una experiencia multimodal completa.
- Te recomendamos -