慕雪的小助手正在绞尽脑汁···
慕雪小助手的总结
DeepSeek & LongCat

欢迎阅读慕雪撰写的AI Agent专栏,本专栏目录如下

  1. 【AI】AI对26届计算机校招的影响
  2. 【Agent.01】AI Agent智能体开发专题引言
  3. 【Agent.02】市面上常见的大模型有哪些?
  4. 【Agent.03】带你学会写一个基础的Prompt
  5. 【Agent.04】AI时代的hello world:调用OpenAI接口,与大模型交互

本文是本专栏的正文第一篇。

写在前面

要想更好的掌握AI,平日里就少不了和AI的交流。任何事情都是这样,只有用的更多,才有可能变得更加熟练,最后进行AI Agent开发的时候,也能够更加得心应手。

相比之下,如果现在还像从前一样只是啃B站视频或者书籍死学的同学,可能会逐步被AI时代淘汰。

本文收集了当前最主流的大模型,以及它们的官网、适用场景。建议大家在编程学习过程中把这一堆大模型全都自己试试,看看从你的角度出发,哪一个大模型的体验和效果最好。

主流大模型一览

下标囊括了当前最主流的大模型,以及它们的适用场景。大家都要多去试试这些模型的效果哦!

PS:表格中“备注”一列斜体部分是AI生成的,没有求证过,经供参考。

大模型 公司 适用场景 备注 官网
GPT 系列 OpenAI 🇺🇸 通用对话、代码、多模态 GPT应该是最早进入大众视野的大模型了,GPT3的发布算是震惊互联网 chat.openai.com
Gemini 系列 Google / DeepMind 🇺🇸 长文本、多模态 谷歌的Gemini在长文本处理这块非常牛,1M超长上下文不是盖的 gemini.google.com
aistudio.google.com
Claude 系列 Anthropic 🇺🇸 代码编程、Agent能力 Claude模型在Agent场景是目前最强大的模型 anthropic.com
Llama 系列 Meta 🇺🇸 开源通用、代码、数学 400B,可商用(限条件) ai.meta.com
Grok xAI 🇺🇸 实时数据、社交对话 X 平台深度集成,现在还上线了个AI虚拟形象,可以“真”调戏她了 x.ai
文心一言 百度 🇨🇳 中文搜索、知识问答 起个大早,赶个晚集 yiyan.baidu.com
通义千问 阿里巴巴 🇨🇳 通用、音视频、多语言 真正的“Open AI”,开源王者! tongyi.aliyun.com
豆包 字节跳动 🇨🇳 短视频、客服、创作 多模态,支持文生图 www.doubao.com
Kimi 月之暗面 🇨🇳 长文本阅读、法律、金融 K2的发布让Kimi加入了Agent编程大模型的行列,可惜K2输出速度到让人无法接受 kimi.com
DeepSeek 深度求索 🇨🇳 中文语义 完全开源,在中文处理任务中比较好用。最新的v3.2 API价格非常便宜! chat.deepseek.com
GLM 清华&智源 🇨🇳 中英双语、工具调用 目前比较好用的国产编码Agent模型,订阅制非常划算 modelscope/THUDM
bigmodel.cn
LongCat 美团 🇨🇳 中英双语、工具调用 美团推出的自研大模型,输出速度超快。目前API每天免费5M Tokens longcat.chat
MiniMax MiniMax 🇨🇳 多轮对话、语音合成 千亿级,语音自然 api.minimax.chat
InternLM 零一万物 🇨🇳 开源通用、教育 轻量长文本,可本地部署 github/InternLM
盘古 华为 🇨🇳 工业视觉、遥感 toB行业定制,我们用不了 huawei/pangu
百川 百川智能 🇨🇳 医疗、中文问答 医疗场景深度优化 baichuan-ai.com
星火 科大讯飞 🇨🇳 中文语音、教育、办公 强语音合成/识别 xinghuo.xfyun.cn
混元 腾讯 🇨🇳 社交、游戏、客服 千亿级,游戏 NPC 优化 yuanbao.tencent.com
Mistral Mistral AI 🇫🇷 多语言、代码、推理 123B,开源权重 mistral.ai
Command Cohere 🇨🇦 企业检索、RAG 104B,商用友好 cohere.com
Falcon TII 🇦🇪 多语言、开源 可商用,工具调用 huggingface/LLM360

本地部署大模型

除了上面这些可以在线使用的大模型,大家还可以尝试一下用https://ollama.com/https://lmstudio.ai/在本地部署大模型。依据你电脑配置的不同,可以在ollama的模型广场里面选择不同参数量的模型,建议直接用qwen3来测试。

1
ollama pull qwen3:1.7b

举个例子:

  • 以游戏本为例,你能够本地部署的模型,就看你的独立显卡显存大小是多少。
    • 比如你是一个8GB显存的英伟达显卡(如RTX 4060和5060),你就可以尝试部署4B的模型;如果你是一个16GB显存的显卡,就可以尝试部署7B或者14B的模型。
  • 如果你不是游戏本,是核显商务本,也可以尝试部署一下1.7B的小模型(直接用CPU跑),也是可以在本地运行起来的。
    • 核显商务本,如果内存够大(超过32GB),可以尝试CPU硬跑MoE大模型。
  • 如果是Arm的MAC电脑,部署模型直接看你的MAC有多少内存即可。
    • 慕雪自己的MAC实测,16GB内存的M3 MacBook Air最高能运行8B的模型。
    • 你可以将MAC内存大小乘0.6后估算最高能运行的模型参数量,16G内存可运行8B模型,48B内存最高可运行30B模型(B站视频实测)。

你可能会问:线上的这些平台不是都提供了大模型的API吗,为什么还要尝试本地部署模型?小参数的模型不是很垃圾吗?

小参数的模型确实效果不如人意,有些完全可以当做人工智障看待。但对于本地部署模型而言,最重要的是你实操过ollama和LM Studio,知道本地部署模型需要做什么步骤。这就好比学习后端的时候,你在本地折腾过Linux、Docker、Jenkins这些环境和工具一样。只有本地折腾过,未来工作中遇到需要实际使用这些工具的时候,才不会抓瞎。折腾是提升动手能力非常重要的一环

当然,瞎折腾之前,还是先把编程的基础打牢了,学习之余再去瞎折腾。别本末倒置了!

The end

本文主要还是为大家收集了主流的大模型以及在哪里使用它们。后续如果出现了新的性能还不错的大模型,会继续更新本文。

大家平日学习中要学会充分借助AI,但也不要过度依赖AI,特别是初学者!