Ollama 常用环境变量

AI (11) 2025-09-11 17:00:29

Ollama 是一个用于运行和管理大型语言模型的工具,它支持通过环境变量来配置其行为。以下是一些常用的 Ollama 环境变量:

1. OLLAMA_HOST

  • 作用:指定 Ollama 服务监听的主机地址。
  • 默认值127.0.0.1:11434
  • 示例

    export OLLAMA_HOST="0.0.0.0:11434"

    设置为 0.0.0.0 可以让服务接受来自外部网络的请求,常用于 Docker 或远程访问场景。


2. OLLAMA_ORIGIN

  • 作用:设置允许跨域请求(CORS)的来源。
  • 默认值http://localhost:11434
  • 示例

    export OLLAMA_ORIGIN="http://localhost:3000,https://yourapp.com"

    当你从前端应用(如 React、Vue)调用 Ollama API 时,可能需要配置此变量以避免 CORS 错误。


3. OLLAMA_MODELS

  • 作用:指定模型文件的存储路径。
  • 默认值:平台相关(Linux: ~/.ollama/models,macOS: ~/Library/Application Support/Ollama/models
  • 示例

    export OLLAMA_MODELS="/mnt/data/ollama/models"

    适用于需要将模型存储在特定磁盘或共享存储中的情况。


4. OLLAMA_NUM_PARALLEL

  • 作用:控制并行生成请求的数量。
  • 默认值:由系统自动决定(通常基于 CPU/GPU 能力)
  • 示例

    bash

    深色版本
    export OLLAMA_NUM_PARALLEL=4

    可用于限制或提升并发处理能力。


5. OLLAMA_MAX_LOADED_MODELS

  • 作用:设置最多可以同时加载到内存的模型数量。
  • 默认值:1
  • 示例

    export OLLAMA_MAX_LOADED_MODELS=3

    在多模型切换频繁的场景下,适当增加可减少加载延迟。


6. OLLAMA_KEEP_ALIVE

  • 作用:设置模型在无请求时保持加载在内存中的时间(单位:秒)。
  • 默认值5m(5分钟)
  • 示例

    export OLLAMA_KEEP_ALIVE="30m"

    值为 0 表示永远不卸载,-1 表示立即卸载。


7. OLLAMA_GPU_MEMORY

  • 作用:(实验性)手动设置 GPU 内存分配(适用于支持 CUDA 的环境)。
  • 示例

    export OLLAMA_GPU_MEMORY="8GiB"

8. OLLAMA_FLASH_ATTENTION

  • 作用:启用或禁用 Flash Attention 优化(可节省内存,提升推理速度)。
  • 取值1 启用,0 禁用
  • 示例

    export OLLAMA_FLASH_ATTENTION=1

9. OLLAMA_NO_RANDOMIZE

  • 作用:禁用端口随机化(调试时使用)。
  • 取值1 禁用随机化
  • 示例

    export OLLAMA_NO_RANDOMIZE=1

10. OLLAMA_DEBUG

  • 作用:启用调试日志输出。
  • 取值1 开启调试模式
  • 示例

    export OLLAMA_DEBUG=1

使用场景示例(Linux/macOS)

# 启动 Ollama 并允许远程访问
export OLLAMA_HOST="0.0.0.0:11434"
export OLLAMA_ORIGIN="*"
export OLLAMA_DEBUG=1
ollama serve

⚠️ 注意:部分环境变量可能随 Ollama 版本更新而变化,请参考官方文档或 GitHub 仓库获取最新信息。

官方文档参考:https://github.com/ollama/ollama

Windows场景

永久设置(推荐)

系统设置->搜索  系统环境变量

Ollama 常用环境变量_图示-571a84ab692a4d6a8f8c6ceb673df37a.png

 然后添加环境变量

Ollama 常用环境变量_图示-d615cf06309c4411be30c3c781778d1f.png

 

Ollama 常用环境变量_图示-3a342e81d8c945a18c2761b5515deb33.png

注意:系统环境变量是下面的框,见上图所示

临时设置(测试)

cmd窗口设置,只对当前cmd窗口生效,

set 变量名=变量值

示例:

 set OLLAMA_HOST=0.0.0.0:11434

 

重启ollma服务

所有环境(Windows/Linux/mac)配置变量后需重启ollama服务(临时方案除外)。

 


评论
User Image
提示:请评论与当前内容相关的回复,广告、推广或无关内容将被删除。

相关文章
Ollama 是一个用于运行和管理大型语言模型的工具,它支持通过环境变量来配置其行为。以下是一些常用的 Ollama 环境变量:1. OLLAMA_HOST作用
问题ollama国内拉取模型慢,断点续传也蛮怎么办,当然是修改ollama镜像源 配置ollama模型国内镜像源
Ollama 模型动辄xxGB,默认位置可能不满足需求,特别是Windows,默认的C盘,所以一般都需要调整下Ollama 模型存放位置。ollama 默认的模
Ollama 简介Ollama 是一个用于部署本地 AI 模型的工具,开发者可以在自己的机器上运行模型,并通过 API 接口调用。在本地搭建 Ollama 服务
概述Ollama官方最新版0.5.7,默认是不支持AMD 780m(代号:gfx1103)集成显卡的,已知方法都是基于一个开源项目ollama-for-amd来
效果参考这里的eval rate 就是平均的token速度执行命令参考ollama run deepseek-r1:8b --verbose重点:--verbo
Ollama 环境准备Ollama安装使用参考:Deepseek Windows安装和入门使用Spring Boot项目接入OllamaSpring Boot
确认Ollama兼容您的GPUNvidiaOllama 支持计算能力 5.0 及以上的 Nvidia GPU。要检查您的显卡是否受支持,请查看您的计算兼容性:h
GPUNvidiaOllama 支持计算能力为 5.0 及以上的 Nvidia GPU。检查你的计算兼容性,以确认你的显卡是否受支持: https://deve
概述本文讲解Java编程中如何通过Spring AI框架 集成 Redis Stack 向量数据库和Ollama模型服务提供者实现RAG本地外挂知识库。前置条件
基于上一个项目Spring Boot 接入Ollama实现与Deepseek简单对话修改,增加嵌入库配置,修改模型拉取策略为alwaysapplication.
安装环境windows 11ollama工具下载ollama工具ollama官网 Download Ollama on Windows注:ollama同时支持L
一 了解什么是 RAGRAG(Retrieval Augmented Generation)检索增强生成,是 2023 年最火热的 LLM 应用系统架构,它的作
概述实现外挂知识库基本就是给AI喂系统消息。或者以固定格式限制住AI的乱来。环境spring-ai-bom 1.0.1 spring ai基础库版本1.01sp
我们知道spring boot可以通过文件名来区分配置,如下:application.ymlapplication-dev.yml #开发环境application-test.yml #测试环境...