Huawei logra reducir consumo de memoria en transmisión de video de gran demanda

 

El laboratorio de Huawei en Zúrich ha lanzado un nuevo método de cuantificación de código abierto que puede reducir la demanda de memoria de video sin sacrificar la calidad de salida de los modelos grandes.

La tecnología, llamada SINQ (Sinkhorn-Normalized Quantization), es actualmente de código abierto en GitHub y Hugging Face, bajo la licencia Apache 2.0, lo que permite a las empresas e instituciones de investigación usar, modificar e implementar comercialmente de forma gratuita.

Los principales beneficios de SINQ son su rápida, sin calibración y fácil integración en los flujos de trabajo del modelo existentes, reduciendo los requisitos de memoria de los modelos entre un 60 y un 70 por ciento a través de un método de cuantificación único, dependiendo de la arquitectura del modelo y el ancho de bits.

Esto significa que los modelos que habrían requerido más de 60 GB de memoria de vídeo para funcionar ahora pueden ejecutarse en un entorno de unos 20 GB. Los modelos grandes que de otro modo tendrían que ejecutarse en GPU empresariales de alta gama, como la A100 o la H100, ahora pueden ejecutarse en un hardware más económico, como una sola RTX 4090.

SINQ ha sido evaluado en múltiples arquitecturas y modelos, como la serie Qwen3, LLaMA y DeepSeek, y ha funcionado bien en puntos de referencia como WikiText2 y C4, reduciendo significativamente la confusión y las tasas de volteo.

En términos de eficiencia operativa, SINQ es aproximadamente el doble de rápido que HQQ y más de 30 veces más rápido que AWQ, lo que lo hace ideal para entornos de investigación y producción donde el tiempo de cuantificación es limitado.

Please follow and like us:
0
fb-share-icon0
Tweet 44