在带有图形界面的Windows/Linux上本地安装DeepSeek
作者:admin 时间:2026-5-12 12:27:30 浏览:DeepSeek是一款强大的AI模型,专为深度学习应用设计,提供本地部署的灵活性,适用于研究、实验和生产使用。本指南让你了解如何在带有图形界面的Windows/Linux上本地安装DeepSeek。

理解 DeepSeek 及系统需求
DeepSeek 是一款用于自然语言处理和代码生成等任务的大型人工智能模型。本地运行可以更好地控制数据隐私、延迟和模型定制,但也需要足够的硬件资源。
最低硬件需求
- 显卡:NVIDIA RTX 3090或同级别显存(推荐24GB显存)
- CPU:Intel i7(第10代)或AMD Ryzen 7等效设备
- 内存:32GB(大型机型推荐64GB)
- 存储:至少512GB SSD(NVMe优先)
最佳配置以实现最佳性能
- 显卡:NVIDIA A100 或 RTX 4090(大容量机型为 48GB 显存)
- CPU:AMD Threadripper 还是 Intel Xeon(高核心数)
- 内存:128GB+ 用于处理内存中的大型数据集
- 存储:2TB NVMe SSD + 额外硬盘用于备份
DeepSeek 的型号主要为 基于 Linux 的云环境 设计,配备 NVIDIA GPU,但你仍然可以通过一些变通方法在Windows/Linux上安装和运行它们 。以下是本地设置DeepSeek并配备图形用户界面(GUI)的最佳方法。
在Windows/Linux本地安装DeepSeek
Windows面临的挑战包括:
- Windows 原生不 支持 vLLM 。
- 最佳性能需要 CUDA(NVIDIA GPU) 和 WSL(Linux的Windows子系统)。
步骤1:安装WSL(Windows用户)
对于 Windows 用户,请用 Ubuntu 安装 WSL 2 :
wsl --install
wsl --install 命令 在 Windows 上用于安装 Windows Linux 子系统(WSL),允许直接在 Windows 内部运行 Linux 环境。
- 启用WSL:安装运行Linux所需的组件,以便在Windows上运行。
- 默认安装Ubuntu:除非指定其他发行版,否则下载并安装最新的Ubuntu发行版。
- 简化设置:消除手动配置的需求。
安装后,你可以通过运行 wsl 打开 Linux 终端。
然后,打开 Ubuntu终端 并更新系统:
sudo apt update && sudo apt upgrade -y
步骤2:安装NVIDIA CUDA和Python
如果你用的是 NVIDIA显卡,安装CUDA:
sudo apt install -y nvidia-cuda-toolkit
然后,安装Python:
sudo apt install python3 python3-venv python3-pip
步骤3:搭建虚拟环境
python3 -m venv deepseek_env
source deepseek_env/bin/activate
pip install --upgrade pip
步骤4:安装DeepSeek模型和vLLM
关于NVIDIA GPU的:
pip install vllm torch transformers accelerate
该命令使用 pip 安装多个 Python 包,pip 是 Python 的包管理器。每个部件的作用如下:
pip install安装 Python 库。vllm:一款高效运行大型语言模型的高性能推理引擎。torch:核心PyTorch库,用于深度学习和神经网络计算。transformers:Hugging Face 提供的库,用于处理像 GPT 和 Deepseek 这样的预训练模型。accelerate:优化深度学习模型执行,实现高效的多GPU和混合精准训练。
该命令确保你拥有高效运行AI模型所需的所有工具。
对于仅使用CPU的用户:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
该命令安装了 PyTorch 及其针对仅 CPU 系统优化的相关库。
然后,安装DeepSeek:
pip install deepseek-ai
步骤5:运行DeepSeek模型
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "deepseek-ai/deepseek-coder-6.7B"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id).to(device)
prompt = "Explain the theory of relativity in simple terms."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
这个 Python 脚本加载并运行 DeepSeek-Coder 6.7B,这是一个用于文本生成的 AI 模型。以下是详细说明:
1. 导入必要的库
transformers: 处理模型和分词器加载。torch:用于张量计算和硬件加速。
2. 搭建型号和设备
model_id: 规定了DeepSeek-Coder模型。device:如果有的话使用Apple Silicon的MPS ,否则默认使用CPU。
3. 加载 Tokenizer 和 Model
- 分词器将文本转换为模型能理解的格式。
- 模型被加载到指定的设备上。
4. 处理输入并生成输出
- 输入提示“
Explain the theory of relativity in simple terms.”被分牌化。 - 模型根据输入生成文本。
5. 解码与打印输出
- 输出从标记转换回人类可读文本并显示。
- 该脚本允许在本地硬件上进行基于文本的AI推理,使其在代码完成、内容生成等方面非常有用
步骤6:安装图形用户界面
✅选项1:文本生成网页界面
安装网页界面:
git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui
pip install -r requirements.txt
然后,开始界面:
python server.py --model deepseek-ai/deepseek-coder-6.7B --device cuda
该命令启动 一个运行 DeepSeek-Coder 6.7B 进行推理的 Python 服务器。
python server.py: 运行脚本server.py,这很可能启动 API 或推理服务器。--model deepseek-ai/deepseek-coder-6.7B: 规范了DeepSeek-Coder 6.7B模型用于处理请求。--device cuda:运行NVDIA GPU进行硬件加速。
该设置允许通过API或本地接口提供AI生成的响应。 访问时https://localhost:5000 。
✅选项二:LM Studio
为了更友好的体验,安装 LM Studio:
下载并安装 LM Studio。
加载来自 Hugging Face的DeepSeek模型。
用图形界面和模型聊天。
高效DeepSeek部署的最佳实践
1. 针对你的用例微调 DeepSeek
在特定领域数据集上微调DeepSeek可提升准确性和效率:
from transformers import Trainer, TrainingArguments
trainer = Trainer(model, args=TrainingArguments(output_dir="./fine-tuned"))
trainer.train()
这在多个方面提高了效率:
- 无需手动编写循环即可处理模型训练、评估和日志记录。
- 自动管理 GPU/CPU 执行,确保资源使用最优。
- 使用混合精准训练(如启用)以减少内存消耗。
- 支持多GPU和分布式训练,以加快执行速度。
- 在output_dir中检查模型,避免从头重新训练。
- 记录损耗值、梯度和性能指标以供监控。
2. 批量处理提高吞吐量
不是一次处理一个请求,而是将批量输入一起进行:
batch = torch.stack([input1, input2, input3])
output = model(batch)
这通过以下方式提高了效率:
- 它不再单独处理每个输入,而是将多个输入合并为一个批次,从而减少所需的前向传递次数。
- 使用批处理使GPU能够以更高的效率运行,利用并行计算。
- 相比于对单个输入进行循环,函数调用更少,内存分配开销更低。
3. 部署 DeepSeek 与推理服务器
使用 TorchServe 或 FastAPI 确保模型服务的高效:
pip install torchserve torch-model-archiver
定义一个模型处理程序并提供它:
torchserve --start --model-store --models deepseek.mar
这通过以下方式提高了效率:
torchserve将训练好的模型转化为可访问的API,允许同时处理多个请求。- 保持模型在内存中加载,避免重复初始化开销。
- 通过同时处理多个查询来优化吞吐量。
4. 绩效分析与监控
使用 NVIDIA Nsight 系统分析性能瓶颈:
nsys profile python run_deepseek.py
通过利用NVIDIA Nsight系统(nsys)分析和分析DeepSeek的执行性能,提升了效率。具体做法如下:
- 捕捉详细的分析数据,突出显示 CPU、GPU 和内存使用率的缓慢操作。
- 帮助检测低效内核发布,提升深度学习推理和训练效率。
- 识别不必要的计算或内存瓶颈,从而加快执行速度。
DeepSeek 实现常见问题排查
1. CUDA 内存不足错误
- 减少批量。
- 启用梯度检查点。
- 用上
torch.cuda.empty_cache()。
2. 推理性能慢
- 将模型转换为TorchScript以优化推理:
scripted_model = torch.jit.script(model)
- 使用 ONNX 运行时加速推理:
pip install onnxruntime
哪种配置最适合你?
- Windows NVIDIA GPU:使用 WSL、 CUDA和vLLM 以获得最佳性能。
- Windows CPU:使用 LM Studio 或 基于 CPU 的 PyTorch
- Linux NVIDIA GPU:使用 CUDA 和 vLLM 以获得最大速度。
在本地机器上部署DeepSeek,相比云端解决方案,专业人士拥有更多的灵活性、隐私和定制性。然而,选择合适的硬件、配置依赖以及优化系统性能,是释放其全部潜力的关键。通过利用GPU加速、内存高效技术和微调方法,DeepSeek可以高效部署于多种AI应用中。最后有几点需要注意
- 本地运行 DeepSeek需要大量资源。
- 为了最佳性能, 建议使用 带CUDA的NVIDIA显卡 。
- 如果在Mac上运行, MPS是CUDA的最佳替代方案,但性能会更慢。
- 像LM Studio 或 文本生成网页UI 这样的图形界面选项让操作更加便捷。
总结
本文介绍了在带有图形界面的Windows/Linux上本地安装DeepSeek的详细过程,本指南涵盖了你需要了解的所有硬件需求、系统配置、图形界面设置以及如何高效运行 DeepSeek 的性能优化。
相关文章







