在这个科技日新月异的时代,人工智能早已不再是遥不可及的未来幻想,而是悄然融入了我们的日常生活。
无论是学生党熬夜赶论文时需要快速整理资料,还是普通人想用智能助手提升生活效率,亦或是日常中那些琐碎却耗时的任务,AI 技术正在以更亲民的姿态走进每个人的生活。
而DeepSeek R1
模型,正是这样一款强大且实用的工具,它不仅能满足我们对效率的追求,更能让我们感受到科技的温度与可能性。
DeepSeek R1
模型作为一种先进的深度学习模型,能够在各种任务中展现出卓越的性能。本文将详细介绍如何在本地环境中部署DeepSeek R1
模型,涵盖从环境准备、模型下载到最终运行的完整步骤。无论你是初学者还是经验丰富的开发者,都能通过本指南顺利完成部署,充分利用DeepSeek R1
的强大功能。
模型百科
我们在DeepSeek
官方网站上使用的R1
模型是671B
参数量的完整模型,模型大小为404G
。
671B
以下的R1
模型都是Qwen(通义千问)
、Llama(羊驼)
等其他模型去学习(蒸馏) DeepSeek R1
模型所衍生的新模型,底模并非DeepSeek R1
。
对于一般人的日常提问和回答,8B差不多能用,32B应该可以满足大部分需求,要想有更好的体验还是得使用官方平台的完整版模型,当然,如果你有足够的资金,也可以尝试部署完整版R1
模型。
如:DeepSeek-R1-Distill-Qwen-7B
,指的是7B
大小的Qwen
去蒸馏(Distill) DeepSeek-R1
,底模是 Qwen
。
尽管并不是DeepSeek R1
,衍生模型的推理能力和理解能力依然远远超越Llama
和Qwen
。
在模型名称后面,看到的类似Q4_K_M
的部分,指的是一种特定类型的量化方法。
Q:量化;
4:量化使用位数;
K:量化中K均值聚类;
M:量化后模型大小(S = 小,M = 中,L = 大);
使用Ollama部署
下载Ollama
前往https://ollama.com下载Ollama
。
安装命令行
打开Ollama
,按照软件的操作引导下载Ollama
的命令行工具。
选择模型
前往https://ollama.com/library选择想要部署的模型,我们这里选择deepseek-r1
。
选择合适参数量的蒸馏版模型,B
是参数量的单位billion
,1B=十亿
。
那么对于不同显存的GPU该如何选择合适大小参数的模型呢?
大致可以参考下方的表格进行选择。
GPU | Model |
---|---|
4G | 8B |
6G~8G | 8B、14B |
12~16G | 14B、32B |
24G | 70B |
而对于较为特殊的Apple M
系列芯片设备,在内存为16GB
的mac mini
上可以部署8B
或14B
大小的R1
模型,在32GB
的mac mini
上可以部署32B
大小的R1
模型。
下载模型
打开MacOS
自带的终端工具(Windows
使用CMD
或者Shell
等其他命令行工具)。
在终端中输入并执行ollama run deepseek-r1:<参数量大小>
这个命令。
如:部署8B大小的模型则执行ollama run deepseek-r1:8b
,目前ollama
可用的模型有1.5b
、7b
、8b
、14b
、32b
、70b
、671b
。
这时候,ollama
会开始尝试下载对应的模型到本地,耐心等待即可。
运行模型
下载完成后,ollama
将会在终端自动运行本地模型,具体的使用方法可以参考ollama
的官方文档,ollama
也提供了Web API
功能,可以通过编写程序来调用本地模型。
效果展示
不喜欢使用命令行操作的朋友,可以使用 Open WebUI
搭配使用。
使用LM Studio部署
LM Studio
支持CPU+GPU
混合推理,内存充足的情况下,可以实现显存较小的显卡推动14B
、32B
参数大小的模型,如让GPU
负责4G
部分,让CPU
和内存
负责剩下的部分。
如果你想尝试用低配显存跑起32B
参数量的模型,那么电脑的内存至少要32G。
手动设置GPU负载到显存完全占用,其余任务交给CPU。
将CPU线程数设置为逻辑线程数, “高级参数”里“设置”一栏还可以设置CPU的推理线程数。
4G显存的显卡,设置GPU负载为10。8G显存的显卡,设置GPU负载为20。
尽可能让GPU吃满,CPU的运转速度较为迟钝。
LM Studio
是一个免费但是不开源的项目。
下载 LM Studio
前往https://lmstudio.ai下载LM Studio
。
运行 LM Studio
安装并运行LM Studio
,按照首次运行引导的操作,会提示下载一个默认的模型,这里我们可以选择点击右上角跳过。
跳过后即可进入工具页面。
点击右下角的设置图标,我们可以设置默认语言为中文。
接下来在工具的首页面搜索栏中搜索R1
来选择并下载对应的模型。
一定要选择合适自己电脑配置的模型哦~
之后点击右下角的下载按钮,耐心等待模型下载完成即可。
下载完成后,我们点击Load Model
按钮,即可开始在本地加载模型。
加载完成后在对话框直接输入内容就可以开始使用本地大模型啦!
你可以点击Eject
停止当前模型的运行。
可视化界面
Page Assist
Page Assist
是开源的Chrome
浏览器扩展,为本地运行的大模型提供可视化界面。
Chrome:https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo
Github:https://github.com/n4ze3m/page-assist
Open WebUI
Open WebUI
可以为Ollama
、OpenAI API
等服务提供可视化页面。
Github:https://github.com/open-webui/open-webui
其他
除了Ollama
、LM Studio
之外,还有很多其他的工具也很不错,如果你喜欢折腾,那么不妨去尝试一下其他工具:Ray Serve
、GPT4ALL
、vLLM
、HuggingFace TGI
、OpenLLM
、LMDeploy
、FastChat
、LangChain
。
优化
还有一些工具,可以用于提高模型的推理效率,通过硬件加速、算法优化等方式减少推理时间和资源消耗。
TensorRT-LIm
、FasterTransformer
、DeepSpeed-MII
、CTranslate2
、FlexFlow Server MLC LLM
、XInference
。