在这个科技日新月异的时代,人工智能早已不再是遥不可及的未来幻想,而是悄然融入了我们的日常生活。

无论是学生党熬夜赶论文时需要快速整理资料,还是普通人想用智能助手提升生活效率,亦或是日常中那些琐碎却耗时的任务,AI 技术正在以更亲民的姿态走进每个人的生活。

DeepSeek R1模型,正是这样一款强大且实用的工具,它不仅能满足我们对效率的追求,更能让我们感受到科技的温度与可能性。

DeepSeek R1模型作为一种先进的深度学习模型,能够在各种任务中展现出卓越的性能。本文将详细介绍如何在本地环境中部署DeepSeek R1模型,涵盖从环境准备、模型下载到最终运行的完整步骤。无论你是初学者还是经验丰富的开发者,都能通过本指南顺利完成部署,充分利用DeepSeek R1的强大功能。

模型百科

我们在DeepSeek官方网站上使用的R1模型是671B参数量的完整模型,模型大小为404G

671B以下的R1模型都是Qwen(通义千问)Llama(羊驼)等其他模型去学习(蒸馏DeepSeek R1模型所衍生的新模型,底模并非DeepSeek R1

对于一般人的日常提问和回答,8B差不多能用,32B应该可以满足大部分需求,要想有更好的体验还是得使用官方平台的完整版模型,当然,如果你有足够的资金,也可以尝试部署完整版R1模型。

如:DeepSeek-R1-Distill-Qwen-7B,指的是7B大小的Qwen去蒸馏(Distill) DeepSeek-R1,底模是 Qwen

尽管并不是DeepSeek R1,衍生模型的推理能力和理解能力依然远远超越LlamaQwen

在模型名称后面,看到的类似Q4_K_M的部分,指的是一种特定类型的量化方法。

Q:量化;

4:量化使用位数;

K:量化中K均值聚类;

M:量化后模型大小(S = 小,M = 中,L = 大);

使用Ollama部署

下载Ollama

前往https://ollama.com下载Ollama

image

安装命令行

打开Ollama ,按照软件的操作引导下载Ollama 的命令行工具。

选择模型

前往https://ollama.com/library选择想要部署的模型,我们这里选择deepseek-r1

image

选择合适参数量的蒸馏版模型,B是参数量的单位billion1B=十亿

image

那么对于不同显存的GPU该如何选择合适大小参数的模型呢?

大致可以参考下方的表格进行选择。

GPUModel
4G8B
6G~8G8B、14B
12~16G14B、32B
24G70B

而对于较为特殊的Apple M系列芯片设备,在内存为16GBmac mini 上可以部署8B14B大小的R1模型,在32GBmac mini上可以部署32B大小的R1模型。

下载模型

打开MacOS自带的终端工具(Windows使用CMD或者Shell等其他命令行工具)。

在终端中输入并执行ollama run deepseek-r1:<参数量大小> 这个命令。

如:部署8B大小的模型则执行ollama run deepseek-r1:8b ,目前ollama可用的模型有1.5b7b8b14b32b70b671b

这时候,ollama 会开始尝试下载对应的模型到本地,耐心等待即可。

运行模型

下载完成后,ollama将会在终端自动运行本地模型,具体的使用方法可以参考ollama的官方文档,ollama也提供了Web API功能,可以通过编写程序来调用本地模型。

image

效果展示

image

不喜欢使用命令行操作的朋友,可以使用 Open WebUI 搭配使用。

使用LM Studio部署

LM Studio支持CPU+GPU混合推理,内存充足的情况下,可以实现显存较小的显卡推动14B32B参数大小的模型,如让GPU负责4G部分,让CPU内存负责剩下的部分。

如果你想尝试用低配显存跑起32B参数量的模型,那么电脑的内存至少要32G。

手动设置GPU负载到显存完全占用,其余任务交给CPU。

将CPU线程数设置为逻辑线程数, “高级参数”里“设置”一栏还可以设置CPU的推理线程数。

4G显存的显卡,设置GPU负载为10。8G显存的显卡,设置GPU负载为20。

尽可能让GPU吃满,CPU的运转速度较为迟钝。

LM Studio是一个免费但是不开源的项目。

下载 LM Studio

前往https://lmstudio.ai下载LM Studio

image

运行 LM Studio

安装并运行LM Studio,按照首次运行引导的操作,会提示下载一个默认的模型,这里我们可以选择点击右上角跳过。

image

跳过后即可进入工具页面。

image

点击右下角的设置图标,我们可以设置默认语言为中文。

image

接下来在工具的首页面搜索栏中搜索R1来选择并下载对应的模型。

image

image

一定要选择合适自己电脑配置的模型哦~

之后点击右下角的下载按钮,耐心等待模型下载完成即可。

image

下载完成后,我们点击Load Model按钮,即可开始在本地加载模型。

image

加载完成后在对话框直接输入内容就可以开始使用本地大模型啦!

image

你可以点击Eject停止当前模型的运行。

可视化界面

Page Assist

Page Assist是开源的Chrome浏览器扩展,为本地运行的大模型提供可视化界面。

Chrome:https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo

Github:https://github.com/n4ze3m/page-assist

Open WebUI

Open WebUI可以为OllamaOpenAI API等服务提供可视化页面。

Github:https://github.com/open-webui/open-webui

其他

除了OllamaLM Studio之外,还有很多其他的工具也很不错,如果你喜欢折腾,那么不妨去尝试一下其他工具:Ray ServeGPT4ALLvLLMHuggingFace TGIOpenLLMLMDeployFastChatLangChain

优化

还有一些工具,可以用于提高模型的推理效率,通过硬件加速、算法优化等方式减少推理时间和资源消耗。

TensorRT-LImFasterTransformerDeepSpeed-MIICTranslate2FlexFlow Server MLC LLMXInference

最后修改:2025 年 02 月 10 日
如果觉得我的文章对你有用,请随意赞赏