Inferencia de IA

Plataforma NVIDIA Dynamo

Escale y Sirva a la IA Generativa Rápidamente.

Descripción General

El Sistema Operativo de la IA

NVIDIA Dynamo es una plataforma de inferencia de alto rendimiento y baja latencia, diseñada para servir a todos los modelos de IA en cualquier framework, arquitectura o escala de implementación. Ya sea que esté ejecutando el reconocimiento de imágenes en una sola GPU de nivel básico o implementando grandes modelos de razonamiento lingüístico con miles de millones de parámetros en cientos de miles de GPU en data centers, la plataforma NVIDIA Dynamo ofrece una inferencia de IA escalable y eficiente.

¿En Qué Consiste la Inferencia Distribuida?

La inferencia distribuida es el proceso de ejecutar la inferencia de modelos de IA en múltiples dispositivos o nodos de computación para maximizar el rendimiento al establecer cómputos en paralelo. 

Este enfoque permite un escalado eficiente para aplicaciones de IA a gran escala, como la IA generativa, mediante la distribución de las cargas de trabajo en las GPU o la infraestructura de nube. La inferencia distribuida mejora el rendimiento general y la utilización de recursos al permitir a los usuarios optimizar la latencia y el rendimiento para los requisitos únicos de cada carga de trabajo.

Una Mirada Más Profunda a la Plataforma

La Plataforma NVIDIA Dynamo incluye dos frameworks de inferencia de código abierto.

NVIDIA Dynamo sirve modelos de IA generativa en entornos distribuidos a gran escala. Cuenta con optimizaciones específicas de un gran modelo de lenguaje (LLM), como el servicio desagregado y el enrutamiento consciente de la caché KV, para permitir que las fábricas de IA maximicen la generación de ingresos de tokens y se ejecuten al menor costo posible. Los microservicios NVIDIA NIM™ incluirán capacidades de Dynamo, proporcionando una opción de implementación rápida y fácil. Dynamo también será compatible y estará disponible con NVIDIA AI Enterprise.

NVIDIA Dynamo-Triton, anteriormente el Servidor de Inferencia NVIDIA Triton™, estandariza la implementación y ejecución de modelos de IA en todas las cargas de trabajo. Es compatible con todos los backends de inferencia de IA y puede ejecutarse en GPU o CPU, lo que permite a empresas y ISV integrar la IA en sus productos y servicios de forma rápida y asequible. Dynamo-Triton está disponible hoy en los microservicios NVIDIA NIM y con NVIDIA AI Enterprise para brindar soporte, seguridad y estabilidad para empresas.

Por Solución

Encuentre la Mejor Solución para Usted

Modelo de IA Estandarizado

NVIDIA Dynamo-Triton

Implemente la inferencia de IA en modelos de machine learning o deep learning, entrenados desde cualquier framework y en cualquier tipo de procesador: GPU, CPU u otro.

Servicio de IA Generativa Distribuida

NVIDIA Dynamo

Implemente modelos de IA generativa en entornos distribuidos a gran escala y de múltiples nodos al menor costo y con la mayor eficiencia.

Implementación en Producción de Forma Fácil y Rápida

NVIDIA NIM

Los microservicios NIM, también disponibles con NVIDIA AI Enterprise, incluirán continuamente las capacidades de la Plataforma Dynamo, lo que permitirá una implementación rápida y fácil.

Funciones

Explore las Funciones de NVIDIA Dynamo

Servicio Desagregado

Separa las fases de contexto (prerellenado) y de generación (decodificación) de LLM en distintas GPU, lo que habilita el paralelismo de modelos personalizado y la asignación de GPU independiente para aumentar las solicitudes atendidas por GPU.

Planificador de GPU

Supervisa la capacidad de la GPU en entornos de inferencia distribuidos y asigna dinámicamente trabajadores de GPU en todas las fases de contexto y generación  para resolver cuellos de botella y optimizar el desempeño.

Enrutador Inteligente

Enruta el tráfico de inferencia de manera eficiente, lo que minimiza el costoso recálculo de solicitudes repetidas o superpuestas para preservar los recursos de computación, a la vez que garantiza una distribución de carga equilibrada en grandes flotas de GPU.

Biblioteca de Comunicación de Baja Latencia de NIXL

Acelera el movimiento de datos en la configuración de inferencia distribuida, a la vez que simplifica las complejidades de transferencia en diversos tipos de hardware, como las GPU, las CPU, las redes y el almacenamiento.

Beneficios

Los Beneficios de NVIDIA Dynamo

Escale Sin Problemas Desde Una GPU a Miles de GPU

Optimice y automatice la configuración de clústeres de GPU con herramientas preconstruidas y fáciles de implementar y habilite el escalado automático dinámico con métricas específicas de LLM en tiempo real, lo que evita el aprovisionamiento excesivo o insuficiente de recursos de GPU.

Aumente la Capacidad de Servicio de Inferencia a la Vez que Reduce los Costos

Aproveche las optimizaciones avanzadas de servicio de inferencia de LLM, como el servicio desagregado, para aumentar el número de solicitudes de inferencia atendidas sin comprometer la experiencia del usuario.

Prepare Su Infraestructura de IA para el Futuro y Evite Costosas Migraciones

El diseño abierto y modular le permite seleccionar fácilmente los componentes de inferencia que se adaptan a sus necesidades únicas, lo que garantiza la compatibilidad con su pila de IA existente y evita costosos proyectos de migración.

Acelere el Tiempo para Implementar Nuevos Modelos de IA en la Producción

La compatibilidad de NVIDIA Dynamo con todos los principales frameworks, como TensorRT-LLM, vLLM, SGLang, PyTorch y más, garantiza su capacidad de implementar rápidamente nuevos modelos de IA generativa, independientemente de su backend.

Acelere la Inferencia Distribuida

NVIDIA Dynamo es totalmente de código abierto, lo que le brinda total transparencia y flexibilidad. Implemente NVIDIA Dynamo, contribuya a su crecimiento e intégrelo a la perfección en su pila existente.

 ¡Descúbralo en GitHub y únase a la comunidad!

Desarrolle

Para personas que buscan obtener acceso al código de código abierto del Servidor de Inferencia Triton para el desarrollo.

Desarrolle

Para personas que buscan acceder a los contenedores gratuitos del Servidor de Inferencia Triton para el desarrollo.

Experimente

Acceda a la infraestructura alojada por NVIDIA y a laboratorios prácticos guiados que incluyen instrucciones y ejemplos paso a paso, disponibles de forma gratuita en NVIDIA LaunchPad.

Implementar

Obtenga una licencia gratuita para probar NVIDIA AI Enterprise en producción durante 90 días usando su infraestructura existente.  

Casos de Uso

Implementación de IA con NVIDIA Dynamo

Descubra cómo puede impulsar la innovación con NVIDIA Dynamo.

Servicio para Modelos de Razonamiento

Los modelos de razonamiento generan más tokens para resolver problemas complejos, lo que aumenta los costos de inferencia. NVIDIA Dynamo optimiza estos modelos con funciones como el servicio desagregado. Este enfoque separa las fases de prerellenado y decodificación en distintas GPU, lo que les permite a los equipos de inferencia de IA optimizar cada fase de forma independiente. El resultado es una mejor utilización de los recursos, más consultas atendidas por GPU, y menores costos de inferencia.

Inferencia Distribuida

A medida que los modelos de IA se vuelven demasiado grandes para caber en un solo nodo, brindarles servicio de manera eficiente se convierte en un desafío. La inferencia distribuida requiere dividir modelos en múltiples nodos, lo que agrega complejidad en la orquestación, el escalado y la comunicación. Garantizar que estos nodos funcionen como una unidad cohesiva, especialmente en cargas de trabajo dinámicas, exige una administración cuidadosa. NVIDIA Dynamo simplifica esto al proporcionar capacidades preconstruidas en Kubernetes, que manejan sin problemas la programación, el escalado y el servicio para que pueda centrarse en la implementación de IA, no en la administración de infraestructura.

Agentes de IA Escalables

Los agentes de IA dependen de múltiples modelos (LLM, sistemas de recuperación y herramientas especializadas) que funcionan sincronizados en tiempo real. El escalado de estos agentes es un desafío complejo que requiere programación inteligente de GPU, administración eficiente de caché de KV y comunicación de latencia ultra baja para mantener la capacidad de respuesta.
NVIDIA Dynamo agiliza este proceso con un planificador de GPU inteligente, un enrutador inteligente y una biblioteca de comunicaciones de baja latencia integrados, lo que hace que el escalado de agentes de IA se realice sin problemas y sea eficiente.

 

Generación de Código

La generación de código a menudo requiere un refinamiento iterativo para ajustar indicaciones, aclarar requisitos o depurar salidas en función de las respuestas del modelo. Este proceso de ida y vuelta requiere recálculo de contexto con cada turno de usuario, lo que aumenta los costos de inferencia. NVIDIA Dynamo optimiza este proceso al habilitar la reutilización y la descarga de contexto a memoria rentable, lo que minimiza el costoso recálculo y reduce los costos generales de inferencia.

Testimonios de Clientes

Vea lo que los Líderes de la Industria Tienen para Decir sobre NVIDIA Dynamo

Cohere

“El escalado de modelos de IA avanzados requiere programación sofisticada de múltiples GPU, coordinación sin problemas y bibliotecas de comunicación de baja latencia que transfieren contextos de razonamiento de forma fluida en la memoria y el almacenamiento. Esperamos que Dynamo nos ayude a ofrecerles una experiencia de usuario de primer nivel a nuestros clientes empresariales”. Saurabh Baji, Vicepresidente Sénior de Ingeniería de Cohere

Perplexity AI

"Como manejamos cientos de millones de solicitudes mensualmente, confiamos en las GPU y el software de inferencia de NVIDIA para ofrecer el desempeño, la confiabilidad y la escala que exigen nuestro negocio y nuestros usuarios. Esperamos aprovechar Dynamo con sus capacidades de servicio distribuido mejoradas para impulsar aún más la eficiencia del servicio de inferencia y satisfacer las demandas de computación de nuevos modelos de razonamiento de IA". Denis Yarats, CTO de Perplexity AI.

Together AI

“El escalado de modelos de razonamiento de manera rentable requiere nuevas técnicas avanzadas de inferencia, como el servicio desagregado y el enrutamiento consciente del contexto. Together AI proporciona un rendimiento líder en la industria mediante nuestro motor de inferencia propietario. La apertura y la modularidad de Dynamo nos permitirán integrar sus componentes a nuestro motor para atender más solicitudes y optimizar la utilización de recursos, lo que maximiza nuestra inversión en computación acelerada. " Ce Zhang, CTO de Together AI.

Historias de Clientes

Cómo los Líderes de la Industria Están Mejorando la Implementación de Modelos con la Plataforma NVIDIA Dynamo

Adoptantes

Adoptantes Líderes en Todas las Industrias

Recursos

Lo Último en Inferencia de NVIDIA

Acceda a las Últimas Noticias

Lea las últimas actualizaciones y anuncios sobre inferencia para el Servidor de Inferencia NVIDIA Dynamo.

Explore los Blogs Técnicos

Lea instrucciones técnicas sobre cómo comenzar a usar la inferencia.

Analice en Detalle

Obtenga consejos y mejores prácticas para implementar, ejecutar y escalar modelos de IA para la inferencia de IA generativa, LLM, sistemas de recomendación, visión por computadora y más.

Implementación, Optimización y Análisis Comparativo de LLM

Aprenda a servir a los LLM de manera eficiente con instrucciones paso a paso. Abordaremos cómo implementar fácilmente un LLM en múltiples backends y comparar su desempeño, y también cómo ajustar las configuraciones de implementación para lograr un desempeño óptimo.

Lleve los Casos de Uso de IA Empresarial del Desarrollo a la Producción

Descubra qué es la inferencia de IA, cómo se adapta a la estrategia de implementación de IA de su empresa, cuáles son los desafíos clave en la implementación de casos de uso de IA de nivel empresarial, por qué se necesita una solución de inferencia de IA de pila completa para abordar estos desafíos, los principales componentes de una plataforma de pila completa y cómo implementar su primera solución de inferencia de IA.

Aproveche el Poder de las Soluciones de Inferencia de IA Preparadas para la Nube

Descubra cómo la plataforma de inferencia de IA de NVIDIA se integra a la perfección con los proveedores de servicios de nube líderes, lo que simplifica la implementación y acelera el lanzamiento de casos de uso de IA impulsados por LLM.

Guía de Inicio Rápido

¿Es nuevo usuario de NVIDIA Dynamo y desea implementar su modelo rápidamente? Use esta guía de inicio rápido para comenzar su proceso con NVIDIA Dynamo

Tutoriales

Comenzar a usar NVIDIA Dynamo puede generar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de NVIDIA Dynamo y encontrar guías y ejemplos que pueden ayudarle a facilitar la migración.

NVIDIA Brev

Potencie la GPU de NVIDIA en segundos con NVIDIA Brev: acceso instantáneo, configuración automática e implementación flexible en las mejores plataformas de nube. Comience a desarrollar y escalar sus proyectos de IA de inmediato.

Las 5 Razones Principales por las Cuales NVIDIA Dynamo Está Simplificando la Inferencia

NVIDIA Dynamo-Triton simplifica la implementación de modelos de IA a escala en producción, lo que les permite a los equipos implementar modelos de IA entrenados desde cualquier framework, desde un almacenamiento local o una plataforma en la nube en cualquier infraestructura basada en GPU o CPU.

Implemente el Pipeline de Stable Diffusion de HuggingFace con NVIDIA Dynamo

Este video muestra la implementación del pipeline de Stable Diffusion disponible a través de la biblioteca de difusores de HuggingFace. Usamos NVIDIA Dynamo-Triton para implementar y ejecutar el pipeline.

Introducción a NVIDIA Dynamo-Triton

NVIDIA Dynamo es una solución de inferencia de código abierto que estandariza la implementación de modelos y habilita una IA rápida y escalable en producción. Debido a sus muchas funciones, una pregunta natural es: ¿por dónde comienzo? Mire para averiguarlo.

Próximos Pasos

¿Listo para Comenzar?

¡Descargue en GitHub y únase a la comunidad!

Para Desarrolladores

Explore todo lo que necesita para comenzar a desarrollar con NVIDIA Dynamo, incluida la documentación, los tutoriales, los blogs técnicos más recientes, etc.

Contáctenos

Hable con un especialista en productos de NVIDIA sobre cómo pasar de la fase de pruebas a la de producción con la seguridad, la estabilidad de las API y el soporte de NVIDIA AI Enterprise.

Lea el Comunicado de Prensa | Lea el Blog de Tecnología

Acceda a las Últimas Noticias

Lea las últimas actualizaciones y anuncios sobre inferencia para el Servidor de Inferencia Dynamo.

Explore los Blogs Técnicos

Lea instrucciones técnicas sobre cómo comenzar a usar la inferencia.

Analice en Detalle

Obtenga consejos y mejores prácticas para implementar, ejecutar y escalar modelos de IA para la inferencia de IA generativa, LLM, sistemas de recomendación, visión por computadora y más.

Implementación, Optimización y Análisis Comparativo de LLM

Aprenda a servir a los LLM de manera eficiente con instrucciones paso a paso. Abordaremos cómo implementar fácilmente un LLM en múltiples backends y comparar su desempeño, y también cómo ajustar las configuraciones de implementación para lograr un desempeño óptimo.

Lleve los Casos de Uso de IA Empresarial del Desarrollo a la Producción

Descubra qué es la inferencia de IA, cómo se adapta a la estrategia de implementación de IA de su empresa, cuáles son los desafíos clave en la implementación de casos de uso de IA de nivel empresarial, por qué se necesita una solución de inferencia de IA de pila completa para abordar estos desafíos, los principales componentes de una plataforma de pila completa y cómo implementar su primera solución de inferencia de IA.

Aproveche el Poder de las Soluciones de Inferencia de IA Listas para la Nube

Descubra cómo la plataforma de inferencia de IA de NVIDIA se integra a la perfección con los proveedores de servicios de nube líderes, lo que simplifica la implementación y acelera el lanzamiento de casos de uso de IA impulsados por LLM.

Guía de Inicio Rápido

¿Es nuevo usuario de Dynamo y desea implementar su modelo rápidamente? Use esta guía de inicio rápido para comenzar su proceso con Dynamo.

Tutoriales

Comenzar a usar Dynamo puede generar muchas preguntas. Explore este repositorio para familiarizarse con las funciones de Dynamo y encontrar guías y ejemplos que pueden ayudarle a facilitar la migración.

NVIDIA LaunchPad

En los laboratorios prácticos, experimente una IA rápida y escalable con NVIDIA Dynamo. Podrá aprovechar de inmediato los beneficios de la infraestructura de computación acelerada de NVIDIA y escalar sus cargas de trabajo de IA.

Las 5 Razones Principales por las Cuales Dynamo Está Simplificando la Inferencia

El Servidor de Inferencia NVIDIA Dynamo simplifica la implementación de modelos de IA a escala en producción, lo que les permite a los equipos implementar modelos de IA entrenados desde cualquier framework, desde un almacenamiento local o una plataforma en la nube en cualquier infraestructura basada en GPU o CPU.

Implemente el Pipeline de Stable Diffusion de HuggingFace con Dynamo

Este video muestra la implementación del pipeline de Stable Diffusion disponible a través de la biblioteca de difusores de HuggingFace. Usamos el Servidor de Inferencia Dynamo para implementar y ejecutar el pipeline.

Comience a Usar el Servidor de Inferencia NVIDIA Dynamo

El Servidor de Inferencia Dynamo es una solución de inferencia de código abierto que estandariza la implementación de modelos y habilita una IA rápida y escalable en producción. Debido a sus muchas funciones, una pregunta natural es: ¿por dónde comienzo? Mire para averiguarlo.