Os modelos Qwen3-Embedding e Qwen3-Reranker, disponíveis em versões de 0.6B, 4B e 8B parâmetros, são projetados para tarefas como representação de texto, recuperação semântica e reordenação, convertendo textos em vetores de alta qualidade para uso em sistemas de busca, recomendação e análise de linguagem natural.
Para implantar esses modelos localmente, utiliza-se o Ollama, uma plataforma que facilita a execução de modelos de linguagem. O processo envolve a instalação do Ollama seguida pelo download dos modelos desejados.
Instalação do Ollama
Acesse o site oficial do Ollama em https://ollama.com/download para obter o instalador. Para sisteams Windows, baixe o executável e siga as etapas de instalação guiada.
Download dos Modelos via Linha de Comando
Após a instalação, inicie um terminal como o PowerShell ou CMD. Execute o comando ollama run com o nome completo do modelo e a tag de versão especificada. Exemplos eniciais:
ollama run dengcao/Qwen3-Embedding-0.6B:F16
ollama run dengcao/Qwen3-Reranker-0.6B:F16
Monitorize o progresso do download até sua conclusão. Abaixo, uma lista detalhada dos comandos para diferentes variantes e quantizações:
Comandos para Modelos Qwen3-Embedding
- Versão 0.6B:
ollama run dengcao/Qwen3-Embedding-0.6B:Q8_0eollama run dengcao/Qwen3-Embedding-0.6B:F16 - Versão 4B:
ollama run dengcao/Qwen3-Embedding-4B:Q4_K_M,ollama run dengcao/Qwen3-Embedding-4B:Q5_K_M,ollama run dengcao/Qwen3-Embedding-4B:Q8_0 - Versão 8B:
ollama run dengcao/Qwen3-Embedding-8B:Q4_K_M,ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M,ollama run dengcao/Qwen3-Embedding-8B:Q8_0,ollama run dengcao/Qwen3-Embedding-8B:F16
Comandos para Modelos Qwen3-Reranker
- Versão 0.6B:
ollama run dengcao/Qwen3-Reranker-0.6B:Q8_0eollama run dengcao/Qwen3-Reranker-0.6B:F16 - Versão 4B:
ollama run dengcao/Qwen3-Reranker-4B:Q4_K_M,ollama run dengcao/Qwen3-Reranker-4B:Q5_K_M,ollama run dengcao/Qwen3-Reranker-4B:Q8_0 - Versão 8B:
ollama run dengcao/Qwen3-Reranker-8B:Q3_K_M,ollama run dengcao/Qwen3-Reranker-8B:Q4_K_M,ollama run dengcao/Qwen3-Reranker-8B:Q5_K_M,ollama run dengcao/Qwen3-Reranker-8B:Q8_0,ollama run dengcao/Qwen3-Reranker-8B:F16
Entendendo as Versões Quantizadas
A quantização é uma técnica que compacta o modelo, reduzindo o consumo de memória e recursos computacionais, porém com possíveis impactos na precisão:
- Q8_0: Oferece precisão próxima ao float16, mas demanda mais recursos e tem menor velocidade de inferência; não é ideal para a maioria dos casos.
- Q6_K: Aplica quantização Q8_K a todos os tensores.
- Q5_K_M: Utiliza Q6_K para metade dos tensores de attention.wv e feed_forward.w2, e Q5_K para o restante.
- Q5_0: Método de quantização original com 5 bits, proporcionando maior precisão ao custo de mais recursos.
- Q4_K_M: Emprega Q6_K para metade dos tensores attention.wv e feed_forward.w2, e Q4_K para os demais.
- Q4_0: Quantização original de 4 bits.
- Q3_K_M: Usa Q4_K para tensores attention.vw, attention.wo e feed_forward.w2, e Q3_K para outros.
- Q2_K: Aplica Q4_K a tensores attention.vw e feed_forward.w2, e Q2_K aos restantes.
Para um equilíbrio entre desempenho e eficiência, recomenda-se a versão Q5_K_M. Se a restrição de memória for crítica, Q4_K_M é uma alternativa viável.
Treinados com base no modelo Qwen3, esses modelos exploram capacidades multilíngues e são adequados para cenários como recuperação de documentos, geração aumentada por recuperação (RAG), categorização e avaliação de sentimentos.