任务	说明	应用场景
文本生成	根据输入生成新文本	写作助手、聊天机器人、代码生成
文本生成图片	根据文字描述生成图像	AI 绘画、广告设计、创意生成
文本生成视频	根据文字描述生成视频	短视频创作、动画生成
视觉多模态理解	同时理解图像和文本信息	图文内容分析、智能助手
语音合成	将文字转换为语音	语音助手、有声书、导航播报
统一多模态	统一处理多种模态的通用模型	通用 AI 助手、多任务处理

1.2 多模态任务

任务	说明	应用场景
视觉多模态理解	同时理解图像和文本信息	图文内容分析、智能助手
文本生成图片	根据文字描述生成图像	AI 绘画、广告设计、创意生成
图像描述	为图像生成文字描述	无障碍辅助、图片标注
文本生成视频	根据文字描述生成视频	短视频创作、动画生成
视频描述	为视频内容生成文字描述	视频摘要、字幕生成
视觉定位	根据文字描述定位图像区域	目标查找、交互式标注
多模态表征	将多种模态数据映射到统一向量空间	跨模态检索、特征融合
视觉问答	根据图像内容回答问题	智能客服、教育辅助
视频问答	根据视频内容回答问题	视频理解、智能分析
图文检索	通过文字搜索图片或通过图片搜索文字	图库搜索、电商找图
视觉蕴含	判断图像与文本之间的逻辑关系	内容审核、事实核查
生成式多模态表征	生成式方式获取多模态表征	内容生成、特征学习
多模态相似度	计算不同模态数据之间的相似度	图文匹配、推荐系统
文档理解	理解文档中的文字、表格、图表等	发票识别、合同解析
视频时序定位	根据文字描述定位视频中的时间片段	视频剪辑、精彩回放
生成模型调优	对生成模型进行微调优化	模型定制、效果提升
多模态对话	支持图文混合输入的对话系统	智能助手、客服机器人
图片生成视频	根据静态图片生成动态视频	图片动画化、视频特效
统一多模态	统一处理多种模态的通用模型	通用 AI 助手、多任务处理
图片生成图片	根据输入图片生成新图片	图像编辑、风格转换
具身智能	让 AI 具备感知和操控物理世界的能力	机器人控制、自动驾驶

1.3 自然语言处理任务

任务	说明	应用场景
文本生成	根据输入生成新文本	写作助手、聊天机器人、代码生成
文本分类	将文本分到预定义类别	垃圾邮件识别、新闻分类
分词	将句子切分成词语	中文处理基础、搜索引擎
命名实体识别	识别人名、地名、机构名等	信息抽取、知识图谱构建
翻译	一种语言转换为另一种语言	中英翻译、多语言翻译
文本摘要	长文本压缩成简短摘要	新闻摘要、论文摘要
句子相似度	计算两个句子的相似程度	重复问题检测、文本去重
预训练	在大规模数据上预训练的基础模型	BERT、GPT 等基座模型，下游微调
自然语言推理	判断两个句子的逻辑关系	蕴含/矛盾/中立判断
文本纠错	检测并修正文本中的错误	拼写检查、语法纠正
文本向量	将文本转换为数值向量	语义搜索、相似度计算
特征抽取	从文本中提取关键特征	关键词提取、主题分析
情感分析	判断文本的情感倾向	评论分析、舆情监控
关系抽取	识别实体之间的关系	知识图谱、信息抽取
零样本分类	无需训练样本直接分类	灵活分类未见过的类别
表格问答	基于表格数据回答问题	数据查询、报表分析
问答	根据问题返回答案	智能客服、知识问答
词性标注	标注每个词的词性	语法分析、语言研究
实体分类	对识别出的实体进行分类	实体类型判断、知识库
序列标注	对序列中每个元素标注	NER、分词的底层任务
任务型对话	完成特定任务的对话系统	订机票、查天气、预约

1.4 语音任务

任务	说明	应用场景
语音识别	将语音转换为文字	语音输入、会议记录、字幕生成
语音合成	将文字转换为语音	语音助手、有声书、导航播报
语音唤醒	检测特定唤醒词激活系统	智能音箱、车载语音
语音降噪	去除语音中的背景噪声	通话增强、录音处理
回声消除	消除通话中的回声	视频会议、电话系统
语音分离	分离混合语音中的不同说话人	多人会议、语音增强
音频分类	对音频内容进行分类	音乐分类、环境声识别
音频生成	生成音频内容	音乐创作、音效生成
说话人确认	验证说话人身份	声纹解锁、身份认证
说话人日志	记录谁在什么时候说话	会议记录、多人对话分析
标点预测	为语音识别结果添加标点	语音转写、字幕优化
时间戳预测	预测语音中每个词的时间位置	字幕对齐、语音编辑
语音端点检测	检测语音的开始和结束	语音交互、录音分段
困惑度计算	评估语言模型的预测能力	模型评估、语音识别优化
语音语种识别	识别语音所使用的语言	多语言系统、语种切换
音频量化编码	将音频压缩编码	音频压缩、传输优化
音视频语音识别	结合视频信息进行语音识别	视频字幕、唇语辅助
情绪识别	从语音中识别说话人情绪	客服分析、心理评估
逆文本正则化	将口语化文本转为书面形式	语音转写后处理

1.5 计算机视觉任务

任务	说明	应用场景
视觉检测跟踪	检测并跟踪图像/视频中的目标	安防监控、自动驾驶
光学字符识别	识别图像中的文字	证件识别、文档数字化
人脸人体	人脸检测、识别、人体姿态估计	人脸解锁、动作捕捉
视觉分类	对图像进行分类	图片分类、场景识别
视觉编辑	编辑修改图像内容	图像修复、美颜滤镜
视觉分割	将图像分割成不同区域	抠图、医学影像分析
视觉生成	生成新的图像内容	AI 绘画、图像合成
视觉表征	将图像映射为特征向量	图像检索、相似图搜索
视觉评价	评估图像质量	图像质量评分、增强效果评估
底层视觉	图像增强、去噪、超分辨率等	老照片修复、画质提升
三维视觉	三维重建、深度估计等	AR/VR、三维建模
基础模型应用	视觉基础模型的应用	通用视觉任务、迁移学习

1.6 科学计算任务

任务	说明	应用场景
蛋白质结构生成	预测或生成蛋白质三维结构	药物研发、生物研究
蛋白质功能预测	预测蛋白质的生物学功能	基因工程、疾病研究

二、显存需求计算方法

说明： 本章节介绍如何根据模型参数量估算显存需求，帮助你判断自己的显卡是否能运行某个模型。

2.1 基础计算公式

文本生成模型（LLM）

FP16 半精度模式（推荐）：

需要显存 ≈ 模型参数量（B） × 2 GB

示例：

模型	计算公式	需要显存
Qwen3-4B	4B × 2	8GB
Llama3-8B	8B × 2	16GB
Qwen2.5-14B	14B × 2	28GB
Llama3-70B	70B × 2	140GB

注意： 70B 以上的模型通常需要多卡或使用量化技术。

INT8 量化模式：

需要显存 ≈ 模型参数量（B） × 1 GB

示例：

模型	计算公式	需要显存
Qwen3-4B (INT8)	4B × 1	4GB
Llama3-8B (INT8)	8B × 1	8GB

INT4 量化模式：

需要显存 ≈ 模型参数量（B） × 0.5 GB

示例：

模型	计算公式	需要显存
Qwen3-4B (INT4)	4B × 0.5	2GB
Llama3-8B (INT4)	8B × 0.5	4GB

文生图模型（Stable Diffusion / SDXL）

固定显存需求：

模型	显存需求
SD 1.5	约 4-6GB
SDXL	约 8-12GB（启用优化后可降至 6-8GB）
Flux	约 16-20GB

文生视频模型（CogVideoX）

固定显存需求：

模型	显存需求
CogVideoX-2B	约 8-12GB（启用优化后）
CogVideoX-5B	约 14-18GB
Hunyuan Video	约 20-24GB

2.2 实用判断规则

根据你的显存大小，可以快速判断能运行的模型：

你的显存	能跑的 LLM 参数（FP16）	能跑的 LLM 参数（INT8）	能跑的图像模型	能跑的视频模型
6GB	3B 以下	6B 以下	SD 1.5	无法运行
8GB	4B	7B	SD 1.5	无法运行
12GB	4-6B	12B	SDXL（优化）	CogVideoX-2B（优化）
16GB	7-8B	14-16B	SDXL	CogVideoX-5B
24GB	12B	24B	SDXL / Flux	CogVideoX-5B
40GB+	20B	40B	任何模型	任何模型

2.3 注意事项

留出冗余空间 - 实际运行时，除了模型权重，还需要显存存放中间结果、梯度等。建议预留 1-2GB 显存
系统占用 - Windows 系统和桌面显示会占用部分显存（通常 500MB-1GB）
序列长度影响 - 生成更长的文本时，显存占用会增加
批处理大小 - 同时处理多个请求时，显存需求成倍增加

2.4 快速估算器

想要运行某个模型？快速计算需要多少显存：

查看模型名称中的参数量（如 Qwen3-4B）
将参数量乘以 2（FP16）或 1（INT8）
加上 2GB 冗余
得到最低显存需求

示例：

目标模型	计算公式	最低显存需求
Qwen2.5-14B (FP16)	14 × 2 + 2	30GB
Qwen2.5-14B (INT8)	14 × 1 + 2	16GB

三、显存与模型参数对照表

说明： 本章节提供常见显卡与推荐模型参数的对照表，帮助你快速找到适合自己显卡的模型。

3.1 文本生成模型（大语言模型 LLM）

显卡型号	显存大小	推荐模型参数	典型模型示例	说明
GTX 1660 Ti	6GB	1B-3B	Qwen2.5-1.5B, Phi-2 (2.7B)	仅支持小模型，体验受限
RTX 3060	12GB	3B-7B	Qwen3-4B, Llama3-8B, ChatGLM3-6B	入门级 AI 学习，日常对话够用
RTX 3080	10GB	7B-13B	Llama3-8B, Qwen2.5-14B（需优化）	中端选择，性能较好
RTX 4060 Ti	16GB	7B-14B	Qwen2.5-14B, Llama3-13B	性价比之选，适合个人开发
RTX 4080	16GB	14B-32B（需优化）	Qwen2.5-32B（量化）, Yi-34B	高端个人用户，专业开发
RTX 4090	24GB	32B-70B（需量化）	Llama3-70B（量化），Qwen2.5-72B	发烧友级别，接近专业水平
A100 (40GB)	40GB	70B+	Llama3-70B, GPT-3 规模模型	专业训练和推理
A100 (80GB)	80GB	100B+	Llama3-405B（需多卡），超大模型	企业级应用，科研用途

重要提示：

B = Billion（十亿）：模型参数量单位，如 4B = 40 亿参数
量化技术：可以用 INT8/INT4 量化降低显存占用，牺牲少量精度换取更大模型
优化技巧：启用 device_map="auto"、CPU offload 等可以突破显存限制

3.2 文生图模型（Stable Diffusion / SDXL）

显卡型号	显存大小	推荐模型	生成分辨率	说明
GTX 1660 Ti	6GB	SD 1.5	512×512	仅支持基础模型
RTX 3060	12GB	SD 1.5, SDXL（需优化）	512×512, 1024×1024	可运行 SDXL，需显存优化
RTX 4060 Ti	16GB	SDXL, SD 1.5	1024×1024	流畅运行 SDXL
RTX 4080	16GB	SDXL, Flux（实验性）	1024×1024	高端图像生成
RTX 4090	24GB	SDXL, Flux, SD3	2048×2048	顶级图像生成，支持超大分辨率

生成速度参考（SDXL，25 步推理）：

显卡型号	生成速度
RTX 3060 12GB	~20-30 秒/张
RTX 4060 Ti 16GB	~10-15 秒/张
RTX 4090 24GB	~5-8 秒/张

3.3 文生视频模型（CogVideoX / Hunyuan Video）

显卡型号	显存大小	推荐模型	生成时长	说明
RTX 3060	12GB	CogVideoX-2B（需优化）	2-6 秒	勉强能跑，需启用全部优化
RTX 4060 Ti	16GB	CogVideoX-5B	6-10 秒	入门视频生成
RTX 4080	16GB	CogVideoX-5B, Hunyuan-Video-Lite	10-15 秒	较好的视频生成体验
RTX 4090	24GB	CogVideoX-5B, Hunyuan-Video	15-30 秒	专业视频生成，质量更高
A100 40GB	40GB	Hunyuan-Video, OpenSora	30-60 秒	企业级长视频生成

生成速度参考（CogVideoX-2B，49 帧 6 秒视频）：

显卡型号	生成速度
RTX 3060 12GB	~6-10 分钟
RTX 4060 Ti 16GB	~4-6 分钟
RTX 4090 24GB	~2-3 分钟

四、如何查看显卡信息

说明： 在选择模型之前，首先需要了解你的显卡配置。以下是几种常用方法。

4.1 Windows 系统

方法一：使用任务管理器（推荐）

按 Ctrl + Shift + Esc 打开任务管理器
点击「性能」选项卡 → 选择「GPU」
右下角显示显卡型号和显存大小

方法二：使用命令行

打开命令提示符（CMD），输入：

nvidia-smi

输出示例：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 528.02       Driver Version: 528.02       CUDA Version: 12.8    |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ... WDDM  | 00000000:01:00.0  On |                  N/A |
| 30%   45C    P8    15W / 170W |   1024MiB / 12288MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+

关键信息解读：

字段	示例值	含义
GPU Name	NVIDIA GeForce RTX 3060	显卡型号
Memory-Usage	1024MiB / 12288MiB	已用显存 / 总显存
CUDA Version	12.8	支持的 CUDA 版本

如果提示「不是内部或外部命令」，说明 NVIDIA 驱动未安装，请到 NVIDIA 官网下载安装驱动。

五、总结

恭喜！到这里你已经全面了解了 ModelScope 平台的模型分类和选择方法。

本文档内容回顾

我们从多个维度进行了详细介绍：

模型分类说明：介绍了热门任务、多模态、自然语言处理、语音、计算机视觉、科学计算等六大类任务
显存需求计算方法：学习了 FP16、INT8、INT4 三种精度模式的显存计算公式
显存与模型对照表：提供了 LLM、文生图、文生视频三类模型的详细对照表
显卡信息查看方法：掌握了通过任务管理器和命令行查看显卡配置的方法

学习掌握的能力

完成本文档的阅读后，一般来说将能够：

✅ 了解 AI 模型分类：掌握 ModelScope 平台提供的各类 AI 任务和应用场景
✅ 计算显存需求：根据模型参数量快速估算所需显存大小
✅ 选择合适的模型：根据自己的显卡配置选择能够流畅运行的模型
✅ 查看硬件信息：使用系统工具查看显卡型号和显存大小
✅ 理解优化技术：了解量化、CPU offload 等显存优化技术的作用

适用场景与应用方向

根据不同的硬件配置，推荐的应用方向如下：

显存配置	推荐应用方向
6-8GB	AI 入门学习、小模型体验、SD 1.5 图像生成
12GB	日常 AI 对话、SDXL 图像生成、CogVideoX-2B 视频生成
16GB	专业开发、中等规模 LLM、流畅的图像和视频生成
24GB+	高端应用、大规模模型推理、高质量视频生成

后续学习建议

如果想进一步实践，可以尝试：

部署文本生成模型：参考《从零开始：基于 ModelScope 本地部署 Qwen3-4B 大语言模型完全指南》
部署图像生成模型：参考《从零开始：基于 ModelScope 本地部署 Stable Diffusion XL AI 绘画完全指南》
部署视频生成模型：参考《从零开始：基于 ModelScope 本地部署 CogVideoX-2B 文生视频完全指南》

感谢阅读

希望这篇指南能帮助你快速找到适合自己的 AI 模型！如果遇到问题，欢迎反馈和交流。

祝你在 AI 探索之旅中收获满满！

版权所有

版权归属：参谋带个长

许可证：署名-非商业性-相同方式共享 4.0 国际 (CC-BY-NC-SA-4.0)