如何在本地部署 DeepSeek R1 模型？

博主： JanYork
发布时间：2025 年 02 月 10 日
306 次浏览
暂无评论
4374字数
分类：全部

在这个科技日新月异的时代，人工智能早已不再是遥不可及的未来幻想，而是悄然融入了我们的日常生活。

无论是学生党熬夜赶论文时需要快速整理资料，还是普通人想用智能助手提升生活效率，亦或是日常中那些琐碎却耗时的任务，AI 技术正在以更亲民的姿态走进每个人的生活。

而DeepSeek R1模型，正是这样一款强大且实用的工具，它不仅能满足我们对效率的追求，更能让我们感受到科技的温度与可能性。

DeepSeek R1模型作为一种先进的深度学习模型，能够在各种任务中展现出卓越的性能。本文将详细介绍如何在本地环境中部署DeepSeek R1模型，涵盖从环境准备、模型下载到最终运行的完整步骤。无论你是初学者还是经验丰富的开发者，都能通过本指南顺利完成部署，充分利用DeepSeek R1的强大功能。

模型百科

我们在DeepSeek官方网站上使用的R1模型是671B参数量的完整模型，模型大小为404G。

671B以下的R1模型都是Qwen(通义千问)、Llama(羊驼)等其他模型去学习(蒸馏) DeepSeek R1模型所衍生的新模型，底模并非DeepSeek R1。

对于一般人的日常提问和回答，8B差不多能用，32B应该可以满足大部分需求，要想有更好的体验还是得使用官方平台的完整版模型，当然，如果你有足够的资金，也可以尝试部署完整版R1模型。

如：DeepSeek-R1-Distill-Qwen-7B，指的是7B大小的Qwen去蒸馏(Distill) DeepSeek-R1，底模是 Qwen 。

尽管并不是DeepSeek R1，衍生模型的推理能力和理解能力依然远远超越Llama和Qwen。

在模型名称后面，看到的类似Q4_K_M的部分，指的是一种特定类型的量化方法。

Q：量化；
4：量化使用位数；
K：量化中K均值聚类；
M：量化后模型大小（S = 小，M = 中，L = 大）；

使用Ollama部署

下载Ollama

前往https://ollama.com下载Ollama。

安装命令行

打开Ollama ，按照软件的操作引导下载Ollama 的命令行工具。

选择模型

前往https://ollama.com/library选择想要部署的模型，我们这里选择deepseek-r1。

选择合适参数量的蒸馏版模型，B是参数量的单位billion，1B=十亿 。

那么对于不同显存的GPU该如何选择合适大小参数的模型呢？

大致可以参考下方的表格进行选择。

GPU	Model
4G	8B
6G～8G	8B、14B
12～16G	14B、32B
24G	70B

而对于较为特殊的Apple M系列芯片设备，在内存为16GB的mac mini 上可以部署8B或14B大小的R1模型，在32GB的mac mini上可以部署32B大小的R1模型。

下载模型

打开MacOS自带的终端工具（Windows使用CMD或者Shell等其他命令行工具）。

在终端中输入并执行ollama run deepseek-r1:<参数量大小> 这个命令。

如：部署8B大小的模型则执行ollama run deepseek-r1:8b ，目前ollama可用的模型有1.5b、7b、8b、14b、32b、70b、671b。

这时候，ollama 会开始尝试下载对应的模型到本地，耐心等待即可。

运行模型

下载完成后，ollama将会在终端自动运行本地模型，具体的使用方法可以参考ollama的官方文档，ollama也提供了Web API功能，可以通过编写程序来调用本地模型。

效果展示

不喜欢使用命令行操作的朋友，可以使用 Open WebUI 搭配使用。

使用LM Studio部署

LM Studio支持CPU+GPU混合推理，内存充足的情况下，可以实现显存较小的显卡推动14B、32B参数大小的模型，如让GPU负责4G部分，让CPU和内存负责剩下的部分。

如果你想尝试用低配显存跑起32B参数量的模型，那么电脑的内存至少要32G。

手动设置GPU负载到显存完全占用，其余任务交给CPU。

将CPU线程数设置为逻辑线程数， “高级参数”里“设置”一栏还可以设置CPU的推理线程数。

4G显存的显卡，设置GPU负载为10。8G显存的显卡，设置GPU负载为20。

尽可能让GPU吃满，CPU的运转速度较为迟钝。

LM Studio是一个免费但是不开源的项目。

下载 LM Studio

前往https://lmstudio.ai下载LM Studio 。

运行 LM Studio

安装并运行LM Studio，按照首次运行引导的操作，会提示下载一个默认的模型，这里我们可以选择点击右上角跳过。

跳过后即可进入工具页面。

点击右下角的设置图标，我们可以设置默认语言为中文。

接下来在工具的首页面搜索栏中搜索R1来选择并下载对应的模型。

一定要选择合适自己电脑配置的模型哦～

之后点击右下角的下载按钮，耐心等待模型下载完成即可。

下载完成后，我们点击Load Model按钮，即可开始在本地加载模型。

加载完成后在对话框直接输入内容就可以开始使用本地大模型啦！

你可以点击Eject停止当前模型的运行。

可视化界面

Page Assist

Page Assist是开源的Chrome浏览器扩展，为本地运行的大模型提供可视化界面。

Chrome：https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo

Github：https://github.com/n4ze3m/page-assist

Open WebUI

Open WebUI可以为Ollama、OpenAI API等服务提供可视化页面。

Github：https://github.com/open-webui/open-webui

其他

除了Ollama、LM Studio之外，还有很多其他的工具也很不错，如果你喜欢折腾，那么不妨去尝试一下其他工具：Ray Serve、GPT4ALL、vLLM、HuggingFace TGI、OpenLLM、LMDeploy、FastChat、LangChain。

优化

还有一些工具，可以用于提高模型的推理效率，通过硬件加速、算法优化等方式减少推理时间和资源消耗。

TensorRT-LIm、FasterTransformer、DeepSpeed-MII、CTranslate2、FlexFlow Server MLC LLM、XInference。

最后修改：2025 年 02 月 10 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址 *

如何在本地部署 DeepSeek R1 模型？

JanYork • 2025 年 02 月 10 日

<p>在这个科技日新月异的时代，人工智能早已不再是遥不可及的未来幻想，而是悄然融入了我们的日常生活。</p><p>无论是学生党熬夜赶论文时需要快速整理资料，还是普通人想用智能助手提升生活效率，亦或是日常中那些琐碎却耗时的任务，AI 技术正在以更亲民的姿态走进每个人的生活。</p><p>而<code>DeepSeek R1</code>模型，正是这样一款强大且实用的工具，它不仅能满足我们对效率的追求，更能让我们感受到科技的温度与可能性。</p><p><code>DeepSeek R1</code>模型作为一种先进的深度学习模型，能够在各种任务中展现出卓越的性能。本文将详细介绍如何在本地环境中部署<code>DeepSeek R1</code>模型，涵盖从环境准备、模型下载到最终运行的完整步骤。无论你是初学者还是经验丰富的开发者，都能通过本指南顺利完成部署，充分利用<code>DeepSeek R1</code>的强大功能。</p><h2>模型百科</h2><p>我们在<code>DeepSeek</code>官方网站上使用的<code>R1</code>模型是<code>671B</code>参数量的完整模型，模型大小为<code>404G</code>。</p><p><code>671B</code>以下的<code>R1</code>模型都是<code>Qwen(通义千问)</code>、<code>Llama(羊驼)</code>等其他模型去学习(<strong>蒸馏</strong>) <code>DeepSeek R1</code>模型所<strong>衍生</strong>的新模型，底模并非<code>DeepSeek R1</code>。</p><blockquote>对于一般人的日常提问和回答，8B差不多能用，32B应该可以满足大部分需求，要想有更好的体验还是得使用官方平台的完整版模型，当然，如果你有足够的资金，也可以尝试部署完整版<code>R1</code>模型。</blockquote><p>如：<strong><code>DeepSeek-R1-Distill-Qwen-7B</code></strong>，指的是<code>7B</code>大小的<code>Qwen</code>去蒸馏(Distill) <code>DeepSeek-R1</code>，底模是 <code>Qwen</code> 。</p><p>尽管并不是<code>DeepSeek R1</code>，衍生模型的推理能力和理解能力依然远远超越<code>Llama</code>和<code>Qwen</code>。</p><p>在模型名称后面，看到的类似<code>Q4_K_M</code>的部分，指的是一种特定类型的量化方法。</p><blockquote><p>Q：量化；</p><p>4：量化使用位数；</p><p>K：量化中K均值聚类；</p><p>M：量化后模型大小（S = 小，M = 中，L = 大）；</p></blockquote><h2>使用Ollama部署</h2><h3>下载Ollama</h3><p>前往<span class="external-link"><a class="no-external-link" href="https://ollama.com/" target="_blank"><i data-feather="external-link"></i>https://ollama.com</a></span>下载<code>Ollama</code>。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502091954168.png"></p><h3>安装命令行</h3><p>打开<code>Ollama</code> ，按照软件的操作引导下载<code>Ollama</code> 的命令行工具。</p><h3>选择模型</h3><p>前往<span class="external-link"><a class="no-external-link" href="https://ollama.com/library" target="_blank"><i data-feather="external-link"></i>https://ollama.com/library</a></span>选择想要部署的模型，我们这里选择<code>deepseek-r1</code>。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502092012919.png"></p><p>选择合适参数量的蒸馏版模型，<code>B</code>是参数量的单位<code>billion</code>，<code>1B=十亿</code> 。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502092012920.png"></p><p>那么对于不同显存的GPU该如何选择合适大小参数的模型呢？</p><p>大致可以参考下方的表格进行选择。</p><table><thead><tr><th>GPU</th><th>Model</th></tr></thead><tbody><tr><td>4G</td><td>8B</td></tr><tr><td>6G～8G</td><td>8B、14B</td></tr><tr><td>12～16G</td><td>14B、32B</td></tr><tr><td>24G</td><td>70B</td></tr></tbody></table><p>而对于较为特殊的<code>Apple M</code>系列芯片设备，在内存为<code>16GB</code>的<code>mac mini</code> 上可以部署<code>8B</code>或<code>14B</code>大小的<code>R1</code>模型，在<code>32GB</code>的<code>mac mini</code>上可以部署<code>32B</code>大小的<code>R1</code>模型。</p><h3>下载模型</h3><p>打开<code>MacOS</code>自带的终端工具（<code>Windows</code>使用<code>CMD</code>或者<code>Shell</code>等其他命令行工具）。</p><p>在终端中输入并执行<code>ollama run deepseek-r1:&lt;参数量大小&gt;</code> 这个命令。</p><p>如：部署8B大小的模型则执行<code>ollama run deepseek-r1:8b</code> ，目前<code>ollama</code>可用的模型有<code>1.5b</code>、<code>7b</code>、<code>8b</code>、<code>14b</code>、<code>32b</code>、<code>70b</code>、<code>671b</code>。</p><p>这时候，<code>ollama</code> 会开始尝试下载对应的模型到本地，耐心等待即可。</p><h3>运行模型</h3><p>下载完成后，<code>ollama</code>将会在终端自动运行本地模型，具体的使用方法可以参考<code>ollama</code>的官方文档，<code>ollama</code>也提供了<code>Web API</code>功能，可以通过编写程序来调用本地模型。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502092043452.png"></p><h3>效果展示</h3><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502092047609.png"></p><blockquote>不喜欢使用命令行操作的朋友，可以使用 <strong><code>Open WebUI</code></strong> 搭配使用。</blockquote><h2>使用LM Studio部署</h2><p><code>LM Studio</code>支持<code>CPU+GPU</code>混合推理，内存充足的情况下，可以实现显存较小的显卡推动<code>14B</code>、<code>32B</code>参数大小的模型，如让<code>GPU</code>负责<code>4G</code>部分，让<code>CPU</code>和<code>内存</code>负责剩下的部分。</p><p>如果你想尝试用低配显存跑起<code>32B</code>参数量的模型，那么电脑的内存至少要32G。</p><p>手动设置GPU负载到显存完全占用，其余任务交给CPU。</p><p>将CPU线程数设置为逻辑线程数， “高级参数”里“设置”一栏还可以设置CPU的推理线程数。</p><p>4G显存的显卡，设置GPU负载为10。8G显存的显卡，设置GPU负载为20。</p><p>尽可能让GPU吃满，CPU的运转速度较为迟钝。</p><blockquote><code>LM Studio</code>是一个免费但是不开源的项目。</blockquote><h3>下载 LM Studio</h3><p>前往<span class="external-link"><a class="no-external-link" href="https://lmstudio.ai/" target="_blank"><i data-feather="external-link"></i>https://lmstudio.ai</a></span>下载<code>LM Studio</code> 。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101351636.png"></p><h3>运行 LM Studio</h3><p>安装并运行<code>LM Studio</code>，按照首次运行引导的操作，会提示下载一个默认的模型，这里我们可以选择点击右上角跳过。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101400334.png"></p><p>跳过后即可进入工具页面。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101400336.png"></p><p>点击右下角的设置图标，我们可以设置默认语言为中文。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101400338.png"></p><p>接下来在工具的首页面搜索栏中搜索<code>R1</code>来选择并下载对应的模型。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101400337.png"></p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101400335.png"></p><blockquote>一定要选择合适自己电脑配置的模型哦～</blockquote><p>之后点击右下角的下载按钮，耐心等待模型下载完成即可。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101422299.png"></p><p>下载完成后，我们点击<code>Load Model</code>按钮，即可开始在本地加载模型。</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101422300.png"></p><p>加载完成后在对话框直接输入内容就可以开始使用本地大模型啦！</p><p><img src="https://blog.ixor.me/usr/themes/handsome/assets/img/loading.svg" alt="image" title="image" style=""data-original="https://oss.fhub.cn/typora/202502101422301.png"></p><p>你可以点击<code>Eject</code>停止当前模型的运行。</p><h2>可视化界面</h2><h3>Page Assist</h3><p><code>Page Assist</code>是开源的<code>Chrome</code>浏览器扩展，为本地运行的大模型提供可视化界面。</p><p>Chrome：<span class="external-link"><a class="no-external-link" href="https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo" target="_blank"><i data-feather="external-link"></i>https://chromewebstore.google.com/detail/page-assist-a-web-ui-for/jfgfiigpkhlkbnfnbobbkinehhfdhndo</a></span></p><p>Github：<span class="external-link"><a class="no-external-link" href="https://github.com/n4ze3m/page-assist" target="_blank"><i data-feather="external-link"></i>https://github.com/n4ze3m/page-assist</a></span></p><h3>Open WebUI</h3><p><code>Open WebUI</code>可以为<code>Ollama</code>、<code>OpenAI API</code>等服务提供可视化页面。</p><p>Github：<span class="external-link"><a class="no-external-link" href="https://github.com/open-webui/open-webui" target="_blank"><i data-feather="external-link"></i>https://github.com/open-webui/open-webui</a></span></p><h2>其他</h2><p>除了<code>Ollama</code>、<code>LM Studio</code>之外，还有很多其他的工具也很不错，如果你喜欢折腾，那么不妨去尝试一下其他工具：<code>Ray Serve</code>、<code>GPT4ALL</code>、<code>vLLM</code>、<code>HuggingFace TGI</code>、<code>OpenLLM</code>、<code>LMDeploy</code>、<code>FastChat</code>、<code>LangChain</code>。</p><h2>优化</h2><p>还有一些工具，可以用于提高模型的推理效率，通过硬件加速、算法优化等方式减少推理时间和资源消耗。</p><p><code>TensorRT-LIm</code>、<code>FasterTransformer</code>、<code>DeepSpeed-MII</code>、<code>CTranslate2</code>、<code>FlexFlow Server MLC LLM</code>、<code>XInference</code>。</p>

如何在本地部署 DeepSeek R1 模型？

模型百科