一、DeepSeek 安装部署

之前已经写过教程介绍如何部署DeepSeek,具体可参考以下内容:

以上方式在云端产品上实现 DeepSeek 的私有化部署,除此之外,也可以部署安装在本地机器上,如个人PC电脑、内网电脑等环境。

无论使用哪种方法,本质上都是通过安装 Ollama 运行 DeepSeek的大模型来实现,只是具体的实现方式不同。

那么不同的模型有什么区别?具体如何选择模型?本文就介绍一下模型的特点以及推荐的模型。

二、DeepSeek “满血版”模型

1、DeepSeek-V3:全能创作王

DeepSeek-V3 拥有 6710 亿参数 ,采用了先进的 MoE(Mixture of Experts)架构。在这个架构中,就像是有一个专家团队,每个专家都擅长解决某一类特定的问题。在处理任务时,模型会根据具体情况,智能地激活最相关的 “专家”,这样不仅大大提高了计算效率,还能让模型在各种复杂任务中都表现得游刃有余。

2、DeepSeek-R1:超级推理大师

DeepSeek-R1 是基于 V3 开发的第一代推理模型在推理领域展现出了非凡的实力,堪称 “推理能手”。特别主打推理功能,在数学、编程和自然语言推理等任务中都有着极为出色的表现。

在数学推理方面,如同顶尖的数学家,面对各种复杂的数学难题,如 AIME 数学竞赛中的题目,找到解题的关键思路,最终给出准确的答案,在 AIME 2024 基准测试中甚至超越了 OpenAI O1 。

在编程任务中,能够根据给定的需求,快速生成高质量、高效的代码,帮助开发者大大提高开发效率,无论是复杂的算法实现,还是常见的应用程序开发,都能轻松应对。

在自然语言推理中,它能准确理解文本的含义,把握其中的逻辑关系,生成的回复自然流畅、富有逻辑,就像人与人之间的交流一样顺畅。

最大的问题就是,真的思考的太久,时间太长了。

以上2个模型,通常就是人们说的满血版,功能确实强大,但部署的硬件成本也是极高的,大多数的个人和中小企业恐无力承担。

三、DeepSeek 蒸馏模型

1111111.jpg

这张表格展示了不同模型在多种任务和评测指标上的表现:

  • 模型列:左侧一列列出了不同的语言模型,如GPT - 4o - 0513、Claude - 3.5 - Sonnet - 1022等。
  • 评测指标列:后面几列分别是不同的评测任务和指标,包括AIME 2024的pass@1和cons@64、MATH - 500的pass@1、GPQA Diamond的pass@1 、LiveCodeBench的pass@1以及CodeForces rating。这些指标用于衡量模型在数学问题、代码能力等方面的表现,数值可能代表答对率、通过率或某种评分。 不同模型在各项指标上的表现有所差异,反映了它们在不同任务上的能力强弱。

特别注意蒸馏模型的14B、32B、70B的分值,可以看出32B与70B在很多场景不相上下,甚至得分还超过70B,所以没有必要一味追求参数量的大小。

对比后可得出14B、32B是极具性价比,做到了参数规模适中,推理能力优秀,蒸馏模型中强烈推荐。

1、Distill-Qwen-1.5B:入门级

DeepSeek-R1-Distill-Qwen-1.5B 是轻量级模型,有 15 亿参数,响应速度快,对硬件要求不高,应用于快速响应,低配置硬件的场景。如实时问答系统、简单代码的快速生成等。

2、Distill-Qwen-7B:基础级

DeepSeek-R1-Distill-Qwen-7B 拥有 70 亿参数,在性能和资源需求之间找到了一个很好的平衡点。

在推理能力上有了进一步的提升,能够处理更复杂一些的数学和代码问题。在自然语言处理任务中,它也展现出了较强的语言理解和生成能力,生成的文本更加流畅自然,逻辑更加严密,是一款实用性很强的模型。

3、Distill-Llama-8B:基础级

DeepSeek-R1-Distill-Llama-8B 是在 Llama 架构上进行蒸馏得到的模型,拥有 80 亿参数。因为是基于 Llama 蒸馏,所以在中文场景下的表现与7B相比没有明显提升。

4、Distill-Qwen-14B :进阶高手(推荐)

DeepSeek-R1-Distill-Qwen-14B 拥有 140 亿参数,是一位能力全面提升的 “进阶高手”,在推理能力上更上一层楼。

在数学推理任务中,能够处理更为复杂的数学问题,分析问题,找到解题的关键步骤,给出准确的答案。

在代码生成方面,可以生成更复杂、更高效的代码,对于大型项目中的代码编写和优化,能够提供有价值的参考和帮助。

在自然语言推理任务中,对文本的理解更加深入,能够捕捉到文本中的细微语义差别,生成的回复更加准确、贴切。

5、Distill-Qwen-32B:推理专家(推荐)

DeepSeek-R1-Distill-Qwen-32B 拥有 320 亿参数,可以说是 “推理专家”。参数规模适中,推理能力优秀,甚至能在某些方面与一些大型模型相媲美,性能超越 OpenAI-o1-mini。

在数学、代码与推理任务中,面对复杂的问题,能够迅速分析问题的关键所在,运用其强大的推理能力,快速准确地给出解决方案。无论是解决复杂的数学公式推导,还是生成高质量的代码片段,都能轻松应对。

由于其模型体积小,计算资源需求低,这使得它在各种硬件环境下都能灵活部署,无论是在普通的个人电脑上,还是在资源有限的边缘设备中,都能高效运行,为用户提供便捷的推理服务,真正做到了 “小身材,大能量”。

该模型是所有蒸馏模型的首选,性价比极高。

6、Distill-Llama-70B:推理专家

DeepSeek-R1-Distill-Llama-70B 是拥有 700 亿参数,在推理能力和应用场景上展现出了独特的能力。因为是基于 Llama 蒸馏,所以在中文场景下的表现与30B相比没有明显提升,有些场景下还不如30B。

四、DeepSeek 各模型的优势

模型名称参数规模优势特点擅长领域
DeepSeek-V36710 亿采用 MoE 架构,计算效率高;语言理解和生成能力强,推理能力卓越文本生成、推理任务、内容创作、智能客服、知识库检索
DeepSeek-R1基于 V3 开发在数学、编程和自然语言推理等任务中表现出色数学推理、编程、自然语言推理、数学问题求解、代码生成
DeepSeek-R1-Distill-Qwen-1.5B15 亿轻量级模型,推理速度快,响应迅速简单到中等难度的数学和代码推理任务、实时问答系统、简单代码生成
DeepSeek-R1-Distill-Qwen-7B70 亿在性能和资源需求间找到平衡,推理和语言处理能力较强较复杂数学和代码问题、智能客服、简单文本创作
DeepSeek-R1-Distill-Llama-8B80 亿在推理任务上实现有竞争力的性能,模型体积小,资源需求低数学和代码生成任务、资源受限环境下的推理应用
DeepSeek-R1-Distill-Qwen-14B140 亿推理能力进一步提升,能处理更复杂任务复杂数学推理、复杂代码生成、专业领域知识问答
DeepSeek-R1-Distill-Qwen-32B320 亿小巧精悍,推理能力强,性能超越 OpenAI-o1-mini,模型体积小,部署灵活复杂数学、代码与推理任务、各种硬件环境下的推理服务
DeepSeek-R1-Distill-Llama-70B700 亿继承 Llama 架构优势,推理能力深厚,语言理解和生成能力达到新高度高难度数学问题解答、大型软件项目代码生成、智能写作、文本摘要

五、写在最后

在选择模型时,还需要结合自己的硬件配置和预算来综合考虑。如果你的硬件资源有限,预算也相对较少,那么可以选择轻量级的模型,如 DeepSeek-R1-Distill-Qwen-1.5B,它对硬件要求较低,在普通的电脑配置上就能运行,同时成本也相对较低。虽然它的功能可能没有大型模型那么强大,但对于一些简单的任务,如简单的文本处理、基础的代码生成等,还是能够很好地完成的。

相反,如果你的硬件配置较高,预算充足,那么可以选择性能更强大的模型,如 DeepSeek-R1-14B 或 DeepSeek-R1-32B。这些模型能够处理更复杂的任务,在自然语言处理、复杂推理、大规模数据分析等领域展现出强大的实力。

没有必要一味追求参数量,根据实际情况来选择,不管怎么说,蒸馏模型推荐14B、32B。