Un equipo de investigación que incluye a Huawei Technologies señala que ha utilizado con éxito los chips Ascend 910C de la empresa para completar el proceso de postformación para el modelo DeepSeek-V4-Pro.
Con ello, según la prensa china, se ha dado un gran paso adelante a medida que la industria de semiconductores de China intenta saltar de apoyar la inferencia básica de IA a un entrenamiento de modelos más complejo en medio del endurecimiento de las sanciones estadounidenses.
Si bien los fabricantes de chips chinos han tenido éxito en el apoyo de la inferencia de IA, el proceso relativamente simple de ejecutar un modelo ya terminado para responder a las indicaciones del usuario, han tenido problemas con el entrenamiento, el proceso mucho más complejo de construir o refinar el cerebro de un modelo.
Si la «pre-formación» inicial enseña a un modelo a hablar absorbiendo cantidades masivas de datos, el post-formación le enseña a trabajar siguiendo instrucciones humanas, reglas de seguridad y tareas específicas.
Para lograr esto, los investigadores realizaron el modelo más grande de DeepSeek hasta la fecha, que cuenta con 1,6 billones de parámetros, en un clúster informático impulsado por al menos 1.000 chips Huawei, según una publicación en las redes sociales del gobierno.
El equipo llevó a cabo con éxito el post-formación de «parámetro completo», lo que significa que toda la arquitectura del modelo se actualizó y refinó sin tomar atajos.
Sin embargo, los procesos de entrenamiento más complicados históricamente se han basado casi en su totalidad en hardware restringido de gigantes de chips estadounidenses como Nvidia y Advanced Micro Devices, a pesar de que los chips H200 de Nvidia fueron autorizados para la exportación por Washington, pero aún no han sido aprobados para su venta en China.
La última prueba en el hardware de Huawei resultó estable y efectiva, según el equipo. El modelo completó más de 1.500 iteraciones de entrenamiento sin una sola interrupción o error, mientras que el proceso también mejoró las capacidades matemáticas del modelo, según un anuncio del Shenzhen Loop Area Institute en mayo.
Si bien las restricciones estadounidenses al acceso a los chips avanzados de los gigantes semiconductores estadounidenses han ralentizado el desarrollo de modelos de IA chinos, también han obligado a los rivales nacionales a tratar de llenar la brecha. Algunas empresas chinas han estado experimentando con el uso de chips domésticos para la formación de modelos.
Mientras tanto, Huawei ha ido adelante con las capacidades de agente de IA, la capacidad de realizar tareas distintas a las de responder a consultas de chatbots.
El viernes, la unidad en la nube de la compañía presentó un nuevo paradigma de «Agentic Infra», que incluye una nueva infraestructura, como una plataforma para asignar potencia informática para la inferencia y la capacitación que puede aumentar la utilización de recursos en más del 30 por ciento.







