
一、知识是如何进入参数的
观点:大模型本身没有知识库/数据库,它“大脑”里的知识来源于它的参数。这些知识是通过训练数据学习到的统计规律,编码在神经网络参数中。大模型不像传统数据库通过结构化存储(如表格、关系型数据)和查询接口管理知识,数据可动态增删改查。
问题1:知识如何编码到参数中?
-
参数的作用:模型参数(即神经网络的权重)记录了训练数据中的统计关联性。例如:
-
输入”法国的首都是”,模型参数中可能编码了”巴黎”的高概率输出;
-
输入”量子力学的基础理论是”,参数可能编码了”波函数、不确定性原理”等关联词。
-
知识的动态性:这种编码并非精确的“记忆”,而是对语言模式和事实的概率分布建模。因此,模型可能生成错误
-
答案(尤其是训练数据中低频或矛盾的内容)
问题2:大模型与传统数据库/知识库的核心区别
| 特征 | 大模型 | 传统知识库/数据库 |
|---|---|---|
| 知识存储形式 | 隐式(参数中的权重分布) | 显式(结构化数据条目) |
| 知识更新方式 | 需重新训练或微调 | 动态增删改查 |
| 知识可解释性 | 黑盒,难以追溯来源 | 透明,可查询和验证 |
| 知识推理能力 | 基于统计生成(可能创新或错误) | 基于逻辑规则(严格但缺乏灵活) |
大模型训练
-
会话调教
-
外挂知识库RAG
-
模型微调
大模型数据来源
-
网络公开数据(网络抓取)
-
人工标注(对大模型的输出答案进行排序、评分和编辑)
-
合成数据(规则填充,比如合同、大模型生成)
-
私有领域数据(学术论文、企业日志、私有代码等)
数据处理五大关键步骤
-
数据清洗(去重、去噪、去毒)
-
数据格式化(UTF8编码、JSON格式)
-
数据分词(Tokenization)
-
数据混合(控制来源平衡比例、动态采样,给高质量数据更高权重)
-
数据压缩(最小哈希降低存储空间、布隆过滤器快速查看)
大模型调用数据
-
数据输入
-
来源:用户通过接口(如API、Web界面、命令行)输入数据,可能是文本、图像、语音等。例如,文本输入可以是问题、指令或对话上下文。
-
格式:输入数据通常以结构化格式(如JSON、字符串)或原始格式(如图像文件)传递。
-
上下文管理:对于对话模型,会获取历史对话记录(如上下文窗口)以保持连贯性。
-
数据预处理
-
清洗与标准化:
-
文本:去除无效字符、统一编码(如UTF-8)、分词(tokenization,使用如BPE或WordPiece)。
-
图像:调整尺寸、归一化像素值、转换颜色空间(如 RGB)。
-
语音:转换为频谱图或特征向量(如MFCC)。
-
-
向量化:
- 将输入数据转换为模型可处理的数值表示。例如,文本通过词嵌入(embedding)转为向量,图像通过卷积层提取特征。
-
批处理:
- 为提高效率,多个输入可能被打包成批次(batch)。
-
模型推理
-
数据输入模型:预处理后的数据被送入大模型(如 Transformer 架构的语言模型或扩散模型)。
-
计算过程:
-
参数调用:模型加载预训练权重(可能存储在本地或云端,权重规模可达百亿甚至千亿参数)
-
并行计算:为加速推理,可能使用多 GPU、TPU或分布式计算,数据分片后并行处理。
-
-
上下文处理:对于长序列输入,模型可能使用滑动窗口或稀疏注意力机制以应对内存限制。
-
输出生成:模型生成原始输出(如logits、概率分布、特征图)。
-
数据后处理
-
解码:
-
文本:将模型输出的token 序列解码为人类可读的文本(如通过贪婪搜索、束搜索或采样)。
-
图像:将特征图转换为可视化图像(如去噪后生成高清图片)。
-
语音:将频谱图转为音频波形。
-
-
格式化:根据应用需求调整输出格式,如 JSON、HTML或流式输出。
-
过滤与安全检查:检查输出内容是否符合安全规范(如避免有害信息或偏见)。
-
数据传输与反馈
-
返回结果:处理后的输出通过接口返回给用户(如API响应、界面显示)。
-
日志记录:系统可能记录输入输出数据(匿名化处理)用于优化模型或调试
-
用户交互:如果是大模型对话系统,可能根据用户反馈(如纠错或追问)重新进入数据调用循环。
流程图:








暂无评论内容