工程实践 第4页
如何获取并制作大模型微调数据集-AI运维探索者

如何获取并制作大模型微调数据集

一、从 Hugging Face 获取公共数据集 地址: `https://huggingface.co/datasets` 1.1 安装命令行工具 默认前提是机器已经装好 Python 和 pip。 1.2 获取 Token 注册、登录并验证邮箱后,可以在...
头像8个月前
04013
Go 并发编程入门:协程、线程、Channel 与 Select-AI运维探索者

Go 并发编程入门:协程、线程、Channel 与 Select

一、前言 本文主要以下几方面介绍Go语言中并发编程: * 理解并发和并行 * 理解协程和线程 * 并发处理任务 * 理解Go通道channel * 理解Go通道channel阻塞 * 理解缓冲通道 * Select处理多个通道及...
头像3年前
0399
Kubernetes驱动的GPU与大模型管理-AI运维探索者

Kubernetes驱动的GPU与大模型管理

一、为什么使用k8s管理GPU与大模型 我们可以从下面六个角度进行分析为什么使用k8s管理GPU与大模型: * 资源调度与优化 * 多租户隔离与资源分配 * 简化部署与管理 * 弹性伸缩和负载均衡 * 高可用...
头像9个月前
03811
常见主流开源大模型盘点-AI运维探索者

常见主流开源大模型盘点

一、先看主流开源大模型全景 | 大模型 | 代表模型 | 公司 | 特点 | | ------------ | ------------- | ---------------- | ------------------------------------------------------------ | | ...
头像8个月前
0385
腾讯云 HAI 体验:从创建实例到 OpenWebUI 测试-AI运维探索者

腾讯云 HAI 体验:从创建实例到 OpenWebUI 测试

一、先创建 HAI 实例 地址: `https://cloud.tencent.com/product/hai` 1.1 进入 HAI 控制台 打开官网后,点击“立即使用”。 1.2 新建算力实例 进入: `算力管理 -> 新建` 1.3 填写实例参数...
头像7个月前
03713
GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘-AI运维探索者

GPU 监控进阶:Prometheus 接入 dcgm-exporter 与显卡大盘

一、为什么还需要 `dcgm-exporter` `node_exporter` 能看到系统级指标,但看不到足够细的 GPU 运行细节。而大模型推理和训练最关心的常常是: * GPU 利用率; * 显存占用; * 温度和功耗; * 显...
头像9个月前
0368
大模型量化入门:GPTQ、AWQ 和 Qwen3-1.7B 实操-AI运维探索者

大模型量化入门:GPTQ、AWQ 和 Qwen3-1.7B 实操

一、为什么量化很重要 量化的本质是把模型从更高精度的数据格式压缩到更低精度,例如: * FP16 -> INT8 * FP16 -> INT4 这样做带来的主要收益有: * 模型体积更小; * 显存占用更低; * ...
头像8个月前
0359
用 DistillKit 做大模型蒸馏:Qwen3-8B 到 Qwen3-0.6B-AI运维探索者

用 DistillKit 做大模型蒸馏:Qwen3-8B 到 Qwen3-0.6B

一、DistillKit 是什么 DistillKit 是 Arcee.AI 开源的大模型蒸馏工具包,目标是让研究和工程团队更容易实践多种蒸馏方法。 它支持的主要方向包括: * 基于 logits 的蒸馏; * 基于隐藏状态的蒸...
头像7个月前
0355
Kubernetes管理大模型实战-AI运维探索者

Kubernetes管理大模型实战

一、K8s使用Model资源部署大模型 1、在 K8s 上部署大模型,可以直接用 Ollama Operator 的 CRD Model 部署,比如部署一个 phi的模型 2、首次部署大模型,会先创建一个 store 服务,用于存储 oll...
头像9个月前
0337
大模型私有化部署硬件选型策略与企业案例-AI运维探索者

大模型私有化部署硬件选型策略与企业案例

- 一、先按需求驱动做决策 - 1.1 数据安全与合规性优先 适用场景 * 金融、医疗、政府等需要遵守数据安全与个人信息保护要求的行业。 * 涉及国家机密,或者跨境数据传输受限的企业。 硬件选型要...
头像8个月前
03311