El consorcio de ingeniería abierta MLCommons ha publicado sus últimos resultados de referencia de la comunidad de formación MLPerf.
MLPerf Training es un punto de referencia de sistema completo que prueba modelos, software y hardware de aprendizaje automático.
Los resultados se dividen en dos divisiones: cerrada y abierta. Las presentaciones cerradas son mejores para comparar el rendimiento homogéneo, ya que utilizan el mismo modelo de referencia para garantizar la igualdad de condiciones. Mientras tanto, las presentaciones abiertas permiten a los participantes enviar una variedad de modelos.
En el punto de referencia de clasificación de imágenes, Google es el ganador con su sistema de vista previa tpu-v4-6912 que usa increíbles procesadores 1728 AMD Rome y 3456 aceleradores de TPU. El sistema de Google completó la prueba comparativa en solo 23 segundos.
“Mostramos el rendimiento récord y la escalabilidad de nuestras unidades de procesamiento de tensor de cuarta generación (TPU v4), junto con la versatilidad de nuestros marcos de aprendizaje automático y la pila de software que lo acompaña. Lo mejor de todo es que estas capacidades pronto estarán disponibles para nuestros clientes de la nube ”, dijo Google.
“Logramos una mejora de aproximadamente 1.7x en nuestras presentaciones de primera línea en comparación con los resultados del año pasado utilizando nuevos pods de TPU v4 a gran escala con 4.096 chips de TPU v4 cada uno. Con 3.456 chips de TPU v4 en un solo segmento de pod de TPU v4, muchos modelos que antes se entrenaban en días o semanas ahora se entrenan en unos pocos segundos ".
De los sistemas que están disponibles en las instalaciones, el sistema dgxa100_n310_ngc21.05_mxnet de NVIDIA se destacó con sus 620 procesadores AMD EPYC 7742 y 2480 aceleradores NVIDIA A100-SXM4-80GB (400W) que completaron el punto de referencia en 40 segundos.
“En los últimos 2,5 años desde que se lanzó el primer punto de referencia de entrenamiento MLPerf, el rendimiento de NVIDIA ha aumentado hasta 6,5 veces por GPU, aumentando hasta 2,1 veces con A100 desde la última ronda”, dijo NVIDIA.
“Demostramos el escalado a 4096 GPU, lo que nos permitió entrenar todos los puntos de referencia en menos de 16 minutos y 4 de 8 en menos de un minuto. La plataforma NVIDIA sobresale tanto en rendimiento como en usabilidad, y ofrece una única plataforma de liderazgo desde el centro de datos hasta el borde y la nube ".
En general, MLCommons dice que los resultados de las evaluaciones comparativas han mejorado hasta 2.1 veces en comparación con la última ronda de presentación. Esto muestra los increíbles avances que se están realizando en hardware, software y escala de sistemas.
Victor Bittorf, Copresidente del Grupo de Trabajo de Capacitación de MLPerf, dijo:
“Estamos encantados de ver el crecimiento continuo y el entusiasmo de la comunidad de MLPerf, especialmente porque podemos medir una mejora significativa en toda la industria con el paquete de referencia de capacitación de MLPerf.
Felicitaciones a todos nuestros participantes en esta ronda de la versión 1.0. Estamos entusiasmados de continuar nuestro trabajo juntos, brindando transparencia en todas las capacidades del sistema de aprendizaje automático ".
Para su último punto de referencia, MLCommons agregó dos nuevos puntos de referencia para medir el rendimiento del rendimiento para la conversión de voz a texto y las imágenes médicas en 3D. Estos nuevos puntos de referencia aprovechan los siguientes modelos de referencia:
- Conversión de voz a texto con RNN-T: RNN-T: El transductor de red neuronal recurrente es un modelo de reconocimiento automático de voz (ASR) que se entrena en un subconjunto de LibriSpeech. Dada una secuencia de entrada de voz, predice el texto correspondiente. RNN-T es el modelo de referencia de MLCommons y se usa comúnmente en la producción de sistemas de voz a texto.
- Imágenes médicas 3D con 3D U-Net: La arquitectura 3D U-Net se entrena en el conjunto de datos KiTS 19 para encontrar y segmentar células cancerosas en los riñones. El modelo identifica si cada vóxel dentro de una tomografía computarizada pertenece a un tejido sano o un tumor, y es representativo de muchas tareas de imágenes médicas.
"El paquete de referencia de capacitación está en el centro de la misión de MLCommon de impulsar la innovación del aprendizaje automático para todos, y estamos increíblemente complacidos con el compromiso de las presentaciones de esta ronda", comentó John Tran, copresidente del Grupo de trabajo de capacitación de MLPerf.
Se pueden explorar los resultados completos del benchmark MLPerf Training aquí.
(Foto de Alora Griffiths en Unsplash)
Encuentra mas sobre Semana de la Transformación Digital Norteamérica, que tendrá lugar del 9 al 10 de noviembre de 2022, un evento virtual y una conferencia que explora estrategias DTX avanzadas para un mundo de "todo digital".
La publicación MLCommons publica los últimos resultados de referencia de MLPerf Training aparecieron primero en AI News.