otimização de inferência - Doido Dev - Laboratório de Desenvolvimento

otimização de inferência

Otimização de Desempenho do NaViL-9B: Atenção Eager, Particionamento em Duas GPUs e Reutilização de Memória para Acelerar a Inferência em 40%

1. Introdução ao Modelo e Contexto Técnico O NaViL-9B é um modelo de linguagem multimodal desenvolvido pelo Shanghai AI Laboratory, capaz de realizar perguntas em texto puro e compreensão de imagens. Com nove bilhões de parâmetros, o processo de inferência enfrenta desafios típicos como alto consumo de memória de vídeo e baixa eficiência comput ...

Publicado em 7-16 02:27

Script para Configuração Automática de Formas Dinâmicas na Conversão de ONNX para TensorRT

Na conversão de modelos ONNX para TensorRT, a definição de formas dinâmicas requer a especificação de três valores: mínimo, ótimo e máximo. Para simplificar procsesos de teste, foi desenvolvido um script que automatiza essa configruação, atribuindo valores padrão a dimensões desconhecidas, enquanto permite ajustes manuais. A função abaixo anali ...

Publicado em 6-5 04:38

Aceleração de Inferência com Contexto Longo usando Processamento em Lote Dinâmico do vLLM

Aceleração de Inferência com Contexto Longo usando Processamento em Lote Dinâmico do vLLM Introdução: Desafios dos Modelos de Raciocínio com Textos Extensos Ao utilizar modelos de geração de texto, é comum observar uma redução significativa na velocidade de processamento quando se lida com textos muito longos ou com perguntas que exigem referên ...

Publicado em 6-1 22:12

Doido Dev

Otimização de Desempenho do NaViL-9B: Atenção Eager, Particionamento em Duas GPUs e Reutilização de Memória para Acelerar a Inferência em 40%

Script para Configuração Automática de Formas Dinâmicas na Conversão de ONNX para TensorRT

Aceleração de Inferência com Contexto Longo usando Processamento em Lote Dinâmico do vLLM

Tags em Destaque