在官网下载的ollama客户端似乎不支持一部分amd显卡,所以可以选择在github上下载ollama-windows-amd64.zip和ollama-windows-amd64-rocm.zip,github地址:https://github.com/ollama/ollama/releases
将ollama-windows-amd64.zip解压后打开,进入这个目录ollama-windows-amd64\windows-amd64\lib\ollama,然后将整个rocm目录删除,其他文件保持不变,再解压ollama-windows-amd64-rocm.zip,打开到rocm目录,将其复制粘贴至ollama-windows-amd64\windows-amd64\lib\ollama目录下
然后打开cmd,用以下命令设置环境变量。
setx OLLAMA_VULKAN "1"
然后进入到有ollama.exe文件的目录下,右键在终端中打开,输入以下命令启动服务
.\ollama.exe serve
再新开一个窗口运行模型,示例命令如下:
.\ollama.exe run qwen3:4b
回车后可以观察第一个cmd窗口,看一下日志中有没有类似下面事例的输出,有的话则表示你的显卡被成功识别了
time=2026-02-26T19:44:19.507+08:00 level=INFO source=types.go:42 msg="inference compute" id=00000000-2d00-0000-0000-000000000000 filter_id="" library=Vulkan compute=0.0 name=Vulkan0 description="AMD Radeon RX 6750 GRE 10GB" libdirs=ollama,vulkan driver=0.0 pci_id=0000:2d:00.0 type=discrete total="10.0 GiB" available="9.2 GiB"
如果有以下日志的话,则表示你的模型被成功加载到GPU
load_tensors: offloading 28 repeating layers to GPU
load_tensors: offloading output layer to GPU
load_tensors: offloaded 29/29 layers to GPU
load_tensors: Vulkan0 model buffer size = 934.69 MiB
至此,我们就可以使用GPU调用大模型了。






