Icono del sitio TransMedia

Huawei logra nuevo lenguaje IA para China Mobile con sus chips Ascend sin aumentar costos de inversión

 

 

China Telecom, de propiedad estatal, ha desarrollado los primeros modelos de inteligencia artificial del país con la innovadora arquitectura Mixture-of-Experts (MoE) que están entrenados completamente en chips avanzados de Huawei.

Para entender en contexto, este lenguaje de  arquitectura Mixture-of-Experts (MoE) (Mezcla de Expertos) es un diseño de aprendizaje profundo que permite escalar modelos de inteligencia artificial a billones de parámetros sin aumentar proporcionalmente el costo de infraestructura.

Esto marcó la primera vez que un desarrollador chino validó públicamente la viabilidad de usar solo chips Huawei para entrenar modelos de IA con arquitectura MoE, que se ha adoptado ampliamente debido a su capacidad para ofrecer un alto rendimiento con menos recursos computacionales.

Los modelos TeleChat3, que van desde 105 mil millones hasta billones de parámetros, fueron entrenados en los chips Ascend 910B de Huawei y su marco de IA de aprendizaje profundo de código abierto MindSpore, según un documento técnico publicado el mes pasado por el Instituto de Inteligencia Artificial (TeleAI) de China Telecom.

 Huawei pudo satisfacer las «severas demandas» de entrenar modelos de MoE a gran escala en muchos tamaños diferentes.

La iniciativa de China Telecom, uno de los operadores de redes fijas y móviles más grandes del mundo, subrayó los crecientes esfuerzos de varias empresas chinas de la lista negra de  Estados Unidos, incluidas Huawei e iFlytek, para entrenar modelos de IA utilizando semiconductores diseñados a nivel nacional.

Pese a este avance, las puntuaciones de rendimiento autoinformadas de China Telecom para sus modelos TeleChat3 mostraron que estaban por detrás de las del GPT-OSS-120B de OpenAI, lanzado en agosto, en varios puntos de referencia.

Eso reflejó la continua necesidad de entrenar modelos de IA de vanguardia en China con unidades de procesamiento de gráficos (GPU) de los proveedores estadounidenses Nvidia o Advanced Micro Devices.

Los modelos de IA desarrollados con la arquitectura MoE, que distribuye tareas a múltiples submodelos especializados, o «expertos», pueden aumentar la capacidad sin aumentos significativos en la sobrecarga computacional.

MoE fue popularizado por el modelo V3 de DeepSeek, lanzado en diciembre de 2024, y desde entonces se ha convertido en la norma para los modelos de IA chinos de vanguardia.

Sin embargo, los modelos del MoE se consideraban técnicamente más exigentes que los modelos convencionales para entrenar y ejecutar. Mostraron una mayor inestabilidad, especialmente en la etapa de ajuste fino, ya que hay que gestionar muchos submodelos.

La firma de desarrollo Z.ai, dijo la semana pasada que su nuevo modelo de generación de imágenes estaba entrenado en chips Huawei, lo que lo convierte en el primer modelo de código abierto desarrollado en una pila de entrenamiento completamente nacional para lograr puntuaciones líderes en la industria en generación de imágenes.

Zhipu AI, con sede en Pekín, fue incluida en la lista negra de EE.UU este mes.

Nvidia, mientras tanto, había presentado su conjunto de GPU avanzadas y marcos de aprendizaje automático como las mejores herramientas del mundo para entrenar modelos de MoE a gran escala.

 

Please follow and like us:
0
0
44
Salir de la versión móvil