Thiago Cavalcante - @tlcavalcante : maio 2025

sexta-feira, 30 de maio de 2025

Como rodar o modelo Llama4-Scout no seu ambiente

Crie um ambiente virtual Python


python3 -m venv llama4-scout
source llama4-scout/bin/activate

Instale o llama-stack

Com o ambiente ativado, instale o llama-stack:

pip install llama-stack

Baixe o modelo

llama model download --source meta --model-id Llama-4-Scout-17B-16E-Instruct

Importante: Será necessário fornecer o URL assinado para o modelo. Sem ele, não roda!

Verifique se o modelo foi baixado corretamente

llama model verify-download --model-id Llama-4-Scout-17B-16E-Instruct

Construa a imagem do llama-stack

Crie a imagem do stack que vai rodar o modelo:

llama stack build --image-name llama-image

Durante a criação, será solicitado que informe os provedores para várias APIs, exemplo:


> Enter provider for API inference: inline::sentence-transformers
> Enter provider for API safety: inline::llama-guard
> Enter provider for API agents: inline::meta-reference
> Enter provider for API vector_io: inline::meta-reference
> Enter provider for API datasetio: inline::localfs
> Enter provider for API scoring: inline::basic
> Enter provider for API eval: inline::meta-reference
> Enter provider for API post_training: inline::torchtune
> Enter provider for API tool_runtime: inline::rag-runtime
> Enter provider for API telemetry: inline::meta-reference

Por fim vai gerar um arquivo de configuração YAML, localizado em:

/root/.llama/distributions/llamastack-INI/llamastack-INI-run.yaml

Execute o llama-stack

llama stack run /home/ipec/.llama/distributions/llamastack-INI/llamastack-INI-run.yaml

Teste o modelo

Faça um POST simples:


curl -X POST http://157.86.210.239:8321/api/inference \
  -H "Content-Type: application/json" \
  -d '{"input": "Qual é o valor de Pi"}'