Implantação do Modelo de Visão e Raciocínio Llama-3.2V-11B-cot com Uso Otimizado de Memória em GPU A10

Introdução

Este guia detalha o processo de implantação do modelo de linguagem multimodal Llama-3.2V-11B-cot em uma GPU NVIDIA A10 com 24 GB de memória. Através de uma série de otimizações, conseguimos reduzir o consumo de memória VRAM para aproximadamente 18 GB, permitindo a execução eficiente deste modelo de 11 bilhões de parâmetros, que combina processamento visual e raciocínio encadeado (Chain-of-Thought).

Visão Geral do Modelo e Desafios

O Llama-3.2V-11B-cot não é um simples gerador de legendas para imagens. Sua arquitetura, herdada do Llama 3.2 Vision, inclui um encoder visual e a capacidade de raciocínio passo a passo. Para uma tarefa como "analise esta tabela de vendas e explique as tendências", ele fornecerá um resumo, uma descrição, uma análise de raciocínio e, finalmente, uma conclusão. Carregar o modelo em precisão FP16 padrão exigiria cerca de 22 GB apenas para os pesos, ultrapassando a capacidade da A10 quando somado ao encoder visual e às ativações de inferência.

Passo 1: Preparação do Ambiente

Recomenda-se o uso de um container Docker para garantir a consistência do ambiente.

Crie um diretório de trabalho e prepare um Dockerfile mínimo:

# Dockerfile
FROM pytorch/pytorch:2.1.0-cuda11.8-cudnn8-runtime

WORKDIR /app

RUN apt-get update && apt-get install -y git && rm -rf /var/lib/apt/lists/*

RUN pip install --no-cache-dir \
    transformers \
    accelerate \
    bitsandbytes \
    torchvision \
    pillow \
    gradio \
    sentencepiece

CMD ["/bin/bash"]

Construa a imagem Docker: docker build -t llama-cot-optimized .

Passo 2: Implementação das Estratégias de Otimização

A combinação de técnicas abaixo é crucial para caber na memória da A10.

2.1. Quantização em 4 bits (NF4)

Esta é a otimização mais impactante. Usando a biblioteca bitsandbytes, carregamos os pesos do modelo em formato INT4, reduzindo drasticamente o footprint na VRAM.

from transformers import AutoModelForCausalLM, BitsAndBytesConfig, AutoProcessor
import torch

model_id = "caminho/para/Llama-3.2V-11B-cot"

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quant_config,
    device_map="auto",
    trust_remote_code=True,
)
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)

Esta etapa reduz a memória consumida pelos pesos para a faixa de 7-9 GB.

2.2. Ativação do Flash Attention 2

Se disponível e compatível com seu ambiente, o Flash Attention 2 otimiza a memória das ativações durante a computação da atenção, sendo especialmente útil para sequências longas geradas a partir de imagens.

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quant_config,
    device_map="auto",
    trust_remote_code=True,
    use_flash_attention_2=True, # Habilitar se o pacote estiver instalado
)

2.3. Controle do Tamanho da Imagem de Entrada

A resolução da imagem de entrada diretamente impacta o comprimento da sequência processada e, consequentemente, a memória necessária. Implementamos um redimensioanmento prévio.

from PIL import Image

def limitar_tamanho_imagem(imagem: Image.Image, pixels_max: int = 112896): # Ex: 336x336
    largura, altura = imagem.size
    pixels_atual = largura * altura
    if pixels_atual > pixels_max:
        escala = (pixels_max / pixels_atual) ** 0.5
        nova_largura = int(largura * escala)
        nova_altura = int(altura * escala)
        return imagem.resize((nova_largura, nova_altura), Image.Resampling.LANCZOS)
    return imagem

Passo 3: Script de Inferência Integrado

Abaixo está um script completo que integra todas as otimizações e cria uma interface simples para teste.

import torch
import gradio as gr
from transformers import AutoModelForCausalLM, AutoProcessor, BitsAndBytesConfig
from PIL import Image

# Configuração do caminho e limites
CAMINHO_MODELO = "/caminho/nao/container/modelo"
PIXELS_MAX_IMAGEM = 336 * 336

# 1. Configuração da Quantização
config_quantizacao = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)

print("Carregando modelo e processador...")
processador = AutoProcessor.from_pretrained(CAMINHO_MODELO, trust_remote_code=True)
modelo = AutoModelForCausalLM.from_pretrained(
    CAMINHO_MODELO,
    quantization_config=config_quantizacao,
    device_map="auto",
    trust_remote_code=True,
)
print("Modelo carregado com sucesso.")

# 2. Função de Processamento e Inferência
def executar_inferencia(imagem_pil, pergunta, tokens_max=384):
    if imagem_pil is None:
        return "Por favor, forneça uma imagem."
    
    # Redimensionar imagem para controle de memória
    imagem_redim = limitar_tamanho_imagem(imagem_pil, PIXELS_MAX_IMAGEM)
    
    # Montar o prompt no formato esperado pelo modelo
    prompt_texto = f"<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n<image>\n{pergunta}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
    
    # Processar entrada
    entradas = processador(
        text=prompt_texto,
        images=imagem_redim,
        return_tensors="pt"
    ).to(modelo.device)
    
    # Gerar resposta
    with torch.no_grad():
        ids_saida = modelo.generate(
            **entradas,
            max_new_tokens=tokens_max,
            do_sample=True,
            temperature=0.6,
            top_p=0.9,
        )
    
    # Decodificar apenas a nova parte gerada
    resposta = processador.decode(ids_saida[0][entradas.input_ids.shape[1]:], skip_special_tokens=True)
    return resposta.strip()

# 3. Criação da Interface
interface = gr.Interface(
    fn=executar_inferencia,
    inputs=[
        gr.Image(type="pil", label="Imagem de Entrada"),
        gr.Textbox(label="Pergunta ou Instrução", lines=3),
        gr.Slider(50, 1024, value=384, label="Máximo de Novos Tokens")
    ],
    outputs=gr.Textbox(label="Resposta do Modelo", lines=15),
    title="Llama-3.2V-11B-cot - Demo Otimizada para A10",
    description="Implementação com quantização NF4 em 4 bits, uso aproximado de 18 GB de VRAM."
)

# 4. Ponto de Entrada
if __name__ == "__main__":
    interface.launch(server_name="0.0.0.0", server_port=7860)</image>

Execução e Verificação

Execute o script dentro do container Docker, montando o diretório do modelo baixado:

docker run -it --gpus all \
    -v /caminho/local/modelo:/caminho/nao/container/modelo \
    -v /caminho/local/do/script:/app \
    -p 7860:7860 \
    llama-cot-optimized \
    python /app/app.py

Monitore o uso de memória durante a execução com nvidia-smi. Com as otimizações aplicadas, o uso deve se estabilizar em torno de 18 GB. Acesse http://ip-do-servidor:7860 para testar a interface, submetendo imagens e perguntas que requeiram raciocínio.

Tags: Llama-3.2V quantização 4-bit bitsandbytes Flash Attention 2 otimização de VRAM

Publicado em 6-29 03:33

Doido Dev