Descubra uma coleção de workflows de referência que usam Modelos de Linguagem Visual (VLM) para oferecer recursos robustos e interativos de percepção visual para uma ampla variedade de setores.
Workloads
Visão Computacional / Análise de Vídeos
Setores
Manufatura
Cidades/Espaços Inteligentes
Varejo/Bens de Consumo Embalados
Mídia e Entretenimento
Área da Saúde e Ciências da Vida
Objetivo de Negócios
Retorno de Investimento
Inovação
Produtos
NVIDIA Metropolis
NVIDIA AI Enterprise
NVIDIA Cosmos Reason
Visão Geral
As aplicações tradicionais de análise de vídeo e seus workflows de desenvolvimento são normalmente criados em modelos de função fixa e limitados que são projetados para detectar e identificar apenas um conjunto seleto de objetos predefinidos. Com IA generativa e modelos base, agora você pode criar aplicações com menos modelos que têm percepção incrivelmente complexa e ampla, além de compreensão contextual rica. Essa nova geração de modelos de linguagem visual (VLMs), como o NVIDIA Cosmos™ Reason, está gerando agentes de IA inteligentes e poderosos para análise de vídeo.
Um agente de IA de análise de vídeo pode combinar modalidades de visão e linguagem para entender prompts de linguagem natural e realizar respostas visuais de perguntas. Por exemplo, respondendo a uma ampla variedade de perguntas em linguagem natural que pode ser aplicada em um stream de vídeo gravado ou ao vivo. Essa compreensão mais profunda do conteúdo de vídeo permite interpretações mais precisas e significativas, melhorando a funcionalidade das aplicações de análise de vídeo e a análise de cenários reais. Esses agentes prometem desbloquear insights e possibilidades totalmente novos para automação.
Os agentes de IA para análise de vídeo altamente perceptivos, precisos e interativos serão implantados em nossas fábricas, armazéns, lojas de varejo, aeroportos, cruzamentos de tráfego e muito mais. Isso terá um grande impacto nas equipes de operações que buscam tomar melhores decisões usando insights mais completos, gerados a partir de interações naturais. Gerentes e equipes de operações se comunicarão com esses agentes em linguagem natural, todos com tecnologia de IA generativa e VLMs, com microsserviços NVIDIA NIM™ como fundamento.
Links Rápidos
Implementação Técnica
O NVIDIA NIM é um conjunto de microsserviços de inferência que inclui APIs padrão do setor, código específico de domínio, mecanismos de inferência otimizados e tempo de execução empresarial. Oferece uma combinação de VLMs, LLMs e RAG para a criação de seu agente de IA para análise de vídeo que pode processar imagens ou vídeos ao vivo ou arquivados para extrair informações práticas usando linguagem natural. Criamos um workflow de referência de um agente de IA de análise de vídeo que você pode experimentar para acelerar seu processo de desenvolvimento.
Links Rápidos
O NVIDIA AI Blueprint para pesquisa e resumo de vídeo (VSS) facilita a criação e a personalização de agentes de IA para análise de vídeo usando IA generativa, VLMs, LLMs e tecnologia NVIDIA NIM. Os agentes de IA para análise de vídeo recebem tarefas por meio de linguagem natural e podem analisar, interpretar e processar grandes quantidades de dados de vídeo para fornecer perspectivas críticas que ajudam vários setores a otimizar processos, melhorar a segurança e reduzir custos.
O VSS permite a integração perfeita de IA generativa em pipelines de visão computacional existentes, aprimorando a inspeção, pesquisa e análise com compreensão multimodal e raciocínio zero-shot. Você pode implantar facilmente do edge à cloud em plataformas, como NVIDIA RTX PRO™ 6000, NVIDIA DGX™ Spark e NVIDIA® Jetson Thor™.
Links Rápidos
Você pode criar agentes de IA para análise de vídeos com a tecnologia da plataforma de IA no edge NVIDIA Jetson™ usando o mais novo recurso do NVIDIA JetPack™: os serviços da plataforma Jetson. A aplicação de IA generativa está totalmente em execução em um dispositivo NVIDIA Jetson Orin™ que é capaz de detectar eventos para gerar alertas e facilitar sessões interativas de perguntas e respostas.
Links Rápidos
Perguntas Frequentes
O NVIDIA NIM é um conjunto de microsserviços fáceis de usar, projetados para uma implantação segura e confiável de inferência de modelos de IA de alto desempenho em cloud, data centers e workstations. É compatível com uma ampla variedade de modelos de IA, incluindo a comunidade de código aberto e os modelos base de IA da NVIDIA, para garantir uma inferência de IA perfeita e escalável, no local ou em cloud, usando APIs padrão do setor. Todos os microsserviços NIM e as APIs de pré-visualização associadas podem ser encontrados em build.nvidia.com.
Acesse build.nvidia.com para criar uma conta e começar a explorar os microsserviços NIM disponíveis. Você pode conferir o NVIDIA Cosmos Reason VLM NIM.
Experimente o NVIDIA AI Blueprint para pesquisa e resumo de vídeos gratuito.
Todos os usuários podem começar gratuitamente com as APIs de pré-visualização em build.nvidia.com. Cada nova conta pode receber até 5.000 créditos para experimentar as APIs. Para continuar o desenvolvimento após o esgotamento dos créditos, você pode implantar os microsserviços NIM disponíveis para download localmente em seu hardware ou em uma instância de nuvem. Os desenvolvedores também podem acessar o NIM por meio do Programa de Desenvolvedores da NVIDIA. Veja os detalhes no FAQ.
O NVIDIA NIM é gratuito para os desenvolvedores experimentarem. Para entrar em produção após o período de teste, os microsserviços NIM disponíveis para download exigem uma Licença de IA da NVIDIA Enterprise. Para saber mais, visite esta página.
O fórum de desenvolvedores NIM é o melhor lugar para fazer perguntas e interagir com nossa comunidade de desenvolvedores. Você pode acessar os fóruns aqui.
Explore o workflow de referência, com vários modelos de linguagem visual, para criar facilmente seu agente de IA para análise de vídeos.
Aproveite a potência do blueprint NVIDIA VSS para implementar agentes de IA com perfeição do edge ao cloud, com desempenho escalável em uma ampla variedade de GPUs. O suporte ao VSS para o NVIDIA DGX Spark estará disponível em breve.