【Agent.02】市面上常见的大模型有哪些?
欢迎阅读慕雪撰写的AI Agent专栏,本专栏目录如下
本文是本专栏的正文第一篇。
写在前面
要想更好的掌握AI,平日里就少不了和AI的交流。任何事情都是这样,只有用的更多,才有可能变得更加熟练,最后进行AI Agent开发的时候,也能够更加得心应手。
相比之下,如果现在还像从前一样只是啃B站视频或者书籍死学的同学,可能会逐步被AI时代淘汰。
本文收集了当前最主流的大模型,以及它们的官网、适用场景。建议大家在编程学习过程中把这一堆大模型全都自己试试,看看从你的角度出发,哪一个大模型的体验和效果最好。
主流大模型一览
下标囊括了当前最主流的大模型,以及它们的适用场景。大家都要多去试试这些模型的效果哦!
大模型 | 最新模型 | 公司 | 适用场景 | 备注 | 官网 |
---|---|---|---|---|---|
GPT 系列 | GPT-4.5 Turbo | OpenAI 🇺🇸 | 通用对话、代码、多模态 | GPT应该是最早进入大众视野的大模型了 | https://chat.openai.com/ |
Gemini 系列 | Gemini 2.5 Pro | Google / DeepMind 🇺🇸 | 长文本、多模态、搜索增强 | 谷歌的Gemini在长文本处理这块非常牛 | https://ai.google https://aistudio.google.com/prompts/new_chat https://gemini.google.com/gem/brainstormer https://notebooklm.google.com/notebook/ |
Claude 系列 | Claude 4 Opus | Anthropic 🇺🇸 | 长文档、安全对话 | Claude模型在Agent场景是目前最强大的模型 | https://anthropic.com |
Llama 系列 | Llama 4 Maverick | Meta 🇺🇸 | 开源通用、代码、数学 | 400B,可商用(限条件) | https://ai.meta.com |
文心一言 | ERNIE-4.5 | 百度 🇨🇳 | 中文搜索、知识问答 | 1.4T 参数,多模态+知识图谱 | https://yiyan.baidu.com |
通义千问 | Qwen2.5-Max | 阿里巴巴 🇨🇳 | 通用、音视频、多语言 | 720B,20T token 预训练 | https://tongyi.aliyun.com https://chat.qwenlm.ai/ |
星火 | 星火 4.0 Ultra | 科大讯飞 🇨🇳 | 中文语音、教育、办公 | 强语音合成/识别 | https://xinghuo.xfyun.cn |
混元 | Hunyuan-Pro | 腾讯 🇨🇳 | 社交、游戏、客服 | 千亿级,游戏 NPC 优化 | https://yuanbao.tencent.com |
豆包 | 豆包 1.5 Pro | 字节跳动 🇨🇳 | 短视频、客服、创作 | 多模态,长上下文 | https://www.doubao.com |
Kimi | Kimi-1.6 | 月之暗面 🇨🇳 | 长文本阅读、法律、金融 | 200 万汉字上下文 | https://www.moonshot.cn https://www.kimi.com/ |
百川 | Baichuan4 | 百川智能 🇨🇳 | 医疗、中文问答 | 医疗场景深度优化 | https://www.baichuan-ai.com |
DeepSeek | DeepSeek-V3 | 深度求索 🇨🇳 | 金融、中文语义 | 1.6T,部分开源 | https://chat.deepseek.com/ |
MiniMax | MiniMax-Text-02 | MiniMax 🇨🇳 | 多轮对话、语音合成 | 千亿级,语音自然 | https://api.minimax.chat |
InternLM | InternLM3 | 零一万物 🇨🇳 | 开源通用、教育 | 轻量长文本,可本地部署 | https://github.com/InternLM |
盘古 | 盘古 CV-3.0 | 华为 🇨🇳 | 工业视觉、遥感 | toB行业定制,我们用不了 | https://www.huaweicloud.com/product/pangu.html |
Mistral | Mistral Large 2 | Mistral AI 🇫🇷 | 多语言、代码、推理 | 123B,开源权重 | https://mistral.ai |
Command | Command R+ | Cohere 🇨🇦 | 企业检索、RAG | 104B,商用友好 | https://cohere.com |
Grok | Grok-3 | xAI 🇺🇸 | 实时数据、社交对话 | X 平台深度集成 | https://x.ai |
Falcon | Falcon3-40B | TII 🇦🇪 | 多语言、开源 | 可商用,工具调用 | https://huggingface.co/LLM360 |
GLM | GLM-4-32B | 清华&智源 🇨🇳 | 中英双语、工具调用 | 开源,32B 轻量 | https://modelscope.cn/organization/THUDM |
本地部署大模型
除了上面这些可以在线使用的大模型,大家还可以尝试一下用https://ollama.com/和https://lmstudio.ai/在本地部署大模型,依据你电脑配置的不同,可以在ollama的模型广场里面选择不同参数量的模型,建议直接用qwen3来测试。
1 | ollama pull qwen3:1.7b |
举个例子:
- 以游戏本为例,你能够本地部署的模型,就看你的显存大小是多少。
- 比如你是一个8GB显存的英伟达显卡,你就可以尝试部署4B的模型;如果你是一个16GB显存的显卡,就可以尝试部署7B或者14B的模型。
- 如果你不是游戏本,是核显商务本,也可以尝试部署一下1.7B的小模型(直接用CPU跑),也是可以在本地运行起来的。
- 如果是Arm的MAC电脑,部署模型直接看你的MAC有多少内存即可。
你可能会问:线上的这些平台不是都提供了API吗,为什么还要尝试本地部署模型?小参数的模型不是很垃圾吗?
小参数的模型确实效果不如人意,但是对于本地部署模型而言,最重要的是你实操过ollama和LM Studio,知道本地部署模型需要做什么步骤。这就好比你在本地折腾过linux、docker、jenkins这些环境一样,只有本地折腾过,未来工作中遇到实际使用这些工具的时候,才不会抓瞎。
The end
本文主要还是为大家收集了主流的大模型以及在哪里使用它们。后续如果出现了新的性能还不错的大模型,会继续更新本文。
大家平日学习中要学会充分借助AI,但也不要过度依赖AI,特别是初学者!
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 慕雪的寒舍!
评论