1. 基础概念
人工智能(Artificial Intelligence, AI)
是计算机科学的分支,旨在通过模拟、延伸和扩展人类智能,使机器具备学习、推理、决策等能力的一门技术科学。其核心目标是使计算机能够执行需人类智能才能完成的任务,如语言理解、图像识别、复杂推理等。大模型(Large Model)
指参数规模庞大(通常达数十亿至万亿级,十亿就是大模型)、基于深度学习技术的人工智能模型,能够处理复杂任务并具备多领域泛化能力。其核心特点包括海量参数、大规模数据训练和高算力需求。开源(Open Source)
指软件或模型的源代码、训练方法、权重参数等核心技术细节向公众开放,允许任何人自由查看、使用、修改和分发。在大模型领域,开源模式打破了技术垄断,降低企业研发门槛。B(Billion,十亿)
在大模型领域,B是参数规模的常用计量单位,表示十亿级参数数量。例如:7B模型代表70 亿参数。14B模型代表140 亿参数。175B模型代表1750 亿参数。
参数规模越大,模型理论上能存储的“知识”越丰富,处理复杂任务的泛化能力越强。例如,GPT-4 的 1.8 万亿参数使其能理解反讽、逻辑推理等抽象语义。
Token(词元)
是人工智能模型处理文本的最小语义单元,相当于语言的“积木”。它将文本拆解为可计算的基本单位,可以是单个汉字、词语、标点符号或子词(如英文单词的一部分)。示例:- 中文:“我爱 AI!” → 拆分为「我」「爱」「AI」「!」(4 个 Token)。
- 英文:“unbelievable” → 拆分为「un」「belie」「vable」(3 个 Token)。
预训练(Pre-training)
在大规模无标注数据(如互联网文本)上训练模型,学习通用语言或视觉规律,例如 GPT-3 使用 45TB 文本数据预训练。微调(Fine-tuning)
在预训练基础上,用特定领域的小规模标注数据进一步训练,使模型适配具体任务(如医疗问答)。混合专家系统(MoE)
将大模型拆分为多个“专家子网络”,推理时仅激活部分专家,降低计算成本的同时提升模型容量,例如 DeepSeek 通过 MoE 将推理效率提升 5 倍。多模态(Multimodal)
支持同时处理文本、图像、音频等多种数据类型的模型,例如 Qwen-VL 可联合分析文本、图表和图片。RAG(检索增强生成)
结合外部知识库提升回答准确性,解决模型“幻觉”问题,例如医疗领域结合专业文献生成诊断建议。
2. 起源:神经网络的启蒙(1940s-1980s)
2.1 感知机的诞生与局限(1957)
1957 年,弗兰克·罗森布拉特(Frank Rosenblatt)受生物神经元启发,首次在 IBM 计算机上实现了感知机(Perceptron)。这种单层神经网络通过加权输入信号计算输出,能够完成简单的线性分类任务(如识别手写数字)。然而,1969 年马文·明斯基(Marvin Minsky)指出,感知机无法解决异或运算(非线性问题),导致神经网络研究陷入低谷。
2.2 反向传播算法突破(1986)
杰弗里·辛顿(Geoffrey Hinton)等学者提出反向传播算法(Backpropagation),通过链式法则逐层调整神经网络权重,首次实现了多层神经网络的训练。这一算法如同“数学导师”,能让网络从错误中学习,为深度学习奠定基础。但受限于算力和数据,此时神经网络仍难以广泛应用。
3. 复兴:深度学习的崛起(2000s-2010s)
3.1 算力与数据的双重革命(2006)
随着 GPU 算力提升和互联网数据爆炸,辛顿团队提出逐层预训练方法,突破深层网络训练瓶颈。2012 年,AlexNet 在 ImageNet 竞赛中以深度卷积神经网络(CNN)击败传统算法,识别错误率从 26%骤降至 15%,标志着深度学习正式进入主流视野。
3.2 循环神经网络(RNN)的探索
为解决序列数据处理难题(如文本、语音),科学家提出RNN及其改进型LSTM,通过“记忆单元”捕捉时间序列的长期依赖关系。但梯度消失问题仍限制其性能,直到 Transformer 架构的出现才彻底改变格局。
4. 质变:大模型时代的开启(2017 至今)
4.1 Transformer 架构革命(2017)
谷歌团队发布《Attention Is All You Need》论文,提出Transformer架构。其核心多头自注意力机制可并行处理长文本依赖,彻底替代 RNN/CNN,成为大模型通用底座。例如,GPT-3 的 1750 亿参数模型即基于 Transformer 堆叠。
4.2 ChatGPT 与多模态突破(2022-2024)
ChatGPT(2022):基于 GPT-3.5 架构,引入人类反馈强化学习(RLHF),首次实现类人对话能力,用户数突破 1 亿仅用 2 个月。GPT-4(2023):支持文本与图像多模态输入,逻辑推理能力接近人类。Sora(2024):OpenAI 发布视频生成模型,实现 60 秒连贯场景生成,推动世界模型发展。
5. 中国力量:从追赶者到创新者
5.1 通义千问(Qwen):开源生态的“破壁者”
开源战略:发布
全量参数模型(如 Qwen-72B),允许企业自由商用,全球开发者已基于 Qwen 训练出超 10 万个垂直领域模型。推出
轻量级版本(如 Qwen-32B),仅需 2 张 RTX 4090 显卡即可部署,让中小企业用得起大模型。
技术亮点:超长上下文窗口:Qwen2.5-Max 支持100 万 token上下文(约 75 万字),可一次性分析整部《红楼梦》并回答细节问题。多模态能力:Qwen-VL 模型实现“文、图、表”联合分析,例如输入财报截图,可自动生成数据趋势总结。
5.2 DeepSeek:架构创新的“性价比之王”
定位与设计目标V3:通用型 NLP 模型,采用混合专家架构(MoE),专注于高效处理多种自然语言任务,如对话生成、多语言翻译、内容创作等。R1:推理优先模型,基于强化学习优化架构,专攻复杂逻辑推理任务(如数学证明、代码生成、金融分析),适合科研、算法开发等场景。
架构与参数V3:总参数 6710 亿,每次推理仅激活 370 亿参数(约 5.5%),通过动态路由机制选择专家模块,降低计算成本。- 支持多模态处理(文本、图像、音频等)和长上下文窗口(最高 1M tokens),适合企业级大规模任务。
R1:参数规模较小(15 亿至 700 亿),支持蒸馏版本(如 32B 模型),便于本地化部署。- 采用
动态门控机制,强化专家调度能力,提升逻辑推理效率。
性能表现V3:在多语言任务(83 种语言准确率 88%)、代码生成(HumanEval 通过率 65.2%)、数学应用(Cmath 得分 90.7%)表现均衡,接近 GPT-4o 水平。R1:在逻辑推理领域显著领先,如数学竞赛 AIME 2024 通过率 79.8%(V3 为 68.7%)、MATH-500 测试得分 97.3%(V3 为 89.4%)。
应用场景V3:适合低成本通用任务(如智能客服、长文档解析)和企业级多模态应用。R1:专用于科研推理、算法交易、教育工具等需要深度分析的场景。
“满血版”的定义
“满血版”特指DeepSeek-V3 的完整参数版本(671B),即未经过压缩或蒸馏的原始模型,支持千卡级训练和复杂任务处理(如科研计算、长文档分析)。
与之对比,R1 的“蒸馏版本”(如 1.5B/7B/14B)参数规模更小,适合资源受限场景(如边缘设备)。选型建议选 V3 满血版:需处理多模态、长文本、高并发任务的企业用户,如金融风控、医疗病历分析。选 R1:需深度逻辑推理的专业场景,如数学研究、代码生成优化。混合部署:核心业务用 V3 处理,边缘计算任务用 R1 蒸馏版,平衡成本与性能。
课后作业
DeepSeek V3 和 R1 的区别是什么,满血版指哪一个?