docker pull crpi-92uj7jb20gffz04j.cn-guangzhou.personal.cr.aliyuncs.com/iluvatar_common/vllm0.7.3-4.2.0:v1

docker run --name="corex_deepseek_4.2.0" --ulimit memlock=-1:-1 -itd --privileged --cap-add=ALL --network=host --ipc=host --pid=host -v /dev:/dev -v /lib/modules:/lib/modules -v /usr/src:/usr/src -v /home:/home -v /root:/root crpi-92uj7jb20gffz04j.cn-guangzhou.personal.cr.aliyuncs.com/iluvatar_common/vllm0.7.3-4.2.0:v1 /bin/bash

VLLM_ENFORCE_CUDA_GRAPH=1 NCCL_RING_BUFFER_SIZE=16M NCCL_MAX_NCHANNELS=4 python3 -m vllm.entrypoints.openai.api_server --model 
/models/DeepSeek-R1-Distill-Qwen-14B/ --gpu-memory-utilization 0.9  -tp 2 --host 127.0.0.1 --port 8000 --trust-remote-code --max-num-batched-tokens 5120 --max-model-len 2048 --max-num-seqs 256