一、知识是如何进入参数的

观点:大模型本身没有知识库/数据库,它“大脑”里的知识来源于它的参数。这些知识是通过训练数据学习到的统计规律,编码在神经网络参数中。大模型不像传统数据库通过结构化存储(如表格、关系型数据)和查询接口管理知识,数据可动态增删改查。

问题1:知识如何编码到参数中?

  • 参数的作用:模型参数(即神经网络的权重)记录了训练数据中的统计关联性。例如:
  • 输入"法国的首都是",模型参数中可能编码了"巴黎"的高概率输出;
  • 输入"量子力学的基础理论是",参数可能编码了"波函数、不确定性原理"等关联词。
  • 知识的动态性:这种编码并非精确的“记忆”,而是对语言模式和事实的概率分布建模。因此,模型可能生成错误
  • 答案(尤其是训练数据中低频或矛盾的内容)

问题2:大模型与传统数据库/知识库的核心区别

特征 大模型 传统知识库/数据库
知识存储形式 隐式(参数中的权重分布) 显式(结构化数据条目)
知识更新方式 需重新训练或微调 动态增删改查
知识可解释性 黑盒,难以追溯来源 透明,可查询和验证
知识推理能力 基于统计生成(可能创新或错误) 基于逻辑规则(严格但缺乏灵活)

大模型训练

  • 会话调教
  • 外挂知识库RAG
  • 模型微调

大模型数据来源

  • 网络公开数据(网络抓取)
  • 人工标注(对大模型的输出答案进行排序、评分和编辑)
  • 合成数据(规则填充,比如合同、大模型生成)
  • 私有领域数据(学术论文、企业日志、私有代码等)

数据处理五大关键步骤

  • 数据清洗(去重、去噪、去毒)
  • 数据格式化(UTF8编码、JSON格式)
  • 数据分词(Tokenization)
  • 数据混合(控制来源平衡比例、动态采样,给高质量数据更高权重)
  • 数据压缩(最小哈希降低存储空间、布隆过滤器快速查看)

大模型调用数据

  • 数据输入
  • 来源:用户通过接口(如API、Web界面、命令行)输入数据,可能是文本、图像、语音等。例如,文本输入可以是问题、指令或对话上下文。
  • 格式:输入数据通常以结构化格式(如JSON、字符串)或原始格式(如图像文件)传递。
  • 上下文管理:对于对话模型,会获取历史对话记录(如上下文窗口)以保持连贯性。
  • 数据预处理
  • 清洗与标准化:
    • 文本:去除无效字符、统一编码(如UTF-8)、分词(tokenization,使用如BPE或WordPiece)。
    • 图像:调整尺寸、归一化像素值、转换颜色空间(如 RGB)。
    • 语音:转换为频谱图或特征向量(如MFCC)。
  • 向量化:
    • 将输入数据转换为模型可处理的数值表示。例如,文本通过词嵌入(embedding)转为向量,图像通过卷积层提取特征。
  • 批处理:
    • 为提高效率,多个输入可能被打包成批次(batch)。
  • 模型推理
  • 数据输入模型:预处理后的数据被送入大模型(如 Transformer 架构的语言模型或扩散模型)。
  • 计算过程:
    • 参数调用:模型加载预训练权重(可能存储在本地或云端,权重规模可达百亿甚至千亿参数)
    • 并行计算:为加速推理,可能使用多 GPU、TPU或分布式计算,数据分片后并行处理。
  • 上下文处理:对于长序列输入,模型可能使用滑动窗口或稀疏注意力机制以应对内存限制。
  • 输出生成:模型生成原始输出(如logits、概率分布、特征图)。

  • 数据后处理

  • 解码:
    • 文本:将模型输出的token 序列解码为人类可读的文本(如通过贪婪搜索、束搜索或采样)。
    • 图像:将特征图转换为可视化图像(如去噪后生成高清图片)。
    • 语音:将频谱图转为音频波形。
  • 格式化:根据应用需求调整输出格式,如 JSON、HTML或流式输出。
  • 过滤与安全检查:检查输出内容是否符合安全规范(如避免有害信息或偏见)。
  • 数据传输与反馈
  • 返回结果:处理后的输出通过接口返回给用户(如API响应、界面显示)。
  • 日志记录:系统可能记录输入输出数据(匿名化处理)用于优化模型或调试
  • 用户交互:如果是大模型对话系统,可能根据用户反馈(如纠错或追问)重新进入数据调用循环。

流程图:

image-20250422190457936