赣州市铁路建设办公室网站合肥网站开发需要

张小明 2026/1/9 19:55:12
赣州市铁路建设办公室网站,合肥网站开发需要,韩国有哪些专业做汽车的网站?,特效网站模板本文介绍GPT_teacher-3.37M-cn轻量级中文GPT模型项目#xff0c;可在普通PC上用CPU训练3.37M参数模型#xff0c;耗时仅20分钟。文章详细展示了从环境准备、分词器构建、配置确认到训练测试的完整流程#xff0c;并解析了关键技术点。该项目适合技术人员了解大模型训练流程可在普通PC上用CPU训练3.37M参数模型耗时仅20分钟。文章详细展示了从环境准备、分词器构建、配置确认到训练测试的完整流程并解析了关键技术点。该项目适合技术人员了解大模型训练流程无需大公司资源即可实操复现是入门大模型训练的理想示例。一、说在前面训练基座大模型那都是大公司们的事情普通人、普通公司肯定是玩不起的但是作为一个技术人你可以不去做真正的大模型训练但是你还是有必要知道和了解一下一个大模型是如何训练出来的。而GPT_teacher-3.37M-cn 是一个很好的示例项目让你可以用一台普通的PC用CPU来训练一个3.37M的中文GPT模型整个训练耗时不到20分钟回答训练集里的问题的效果也还是挺不错的。感兴趣的同学可以用这个项目来练手、实操复现一下“自己动手从0开始训练一个大模型”的完整流程。二、项目概述一个轻量级中文GPT模型项目专为在CPU上快速训练和演示而设计模型参数量3.37M 架构4层Transformer解码器 特点使用RMSNorm、RoPE位置编码、权重共享等优化技术 目标45分钟内在普通CPU上训练出可用的中文问答模型参考训练时长我的笔记本CPU: i7-8850H CPU 2.60GHz16G内存整个训练花了1419.35秒约需要23.65分钟。一台Mac Pro2.6GHz 6核 i7, 16GB内存整个训练1186.8秒约需要19.78分钟。三、完整复现流程介绍完了就让我们来实操整个从0到1的训练吧。先下载代码git clone https://gitee.com/baidumap/GPT_teacher-3.37M-cn1. 环境准备# 进入项目目录cd g:\oddmeta\oddllm\GPT_teacher-3.37M-cn# 安装依赖python -m pip install -r requirements.txt依赖项包括pip21.0 # 确保依赖解析能力避免安装失败torch2.2,2.5 # 锁定 2.x 稳定区间2.5 已完善 NumPy 2.x 支持但暂不冒险PyYAML6.0,7.0 # 限制在 6.x 稳定系列避开未来 7.x 大版本变更numpy1.24,2.0 # 核心修复满足原版本要求同时彻底避开 NumPy 2.x 兼容问题tokenizers0.15,0.25 # 锁定 0.15-0.24 稳定区间Hugging Face 官方推荐sentencepiece0.1.99,0.2.0 # 限制在 0.1.x 系列避免 0.2.x 重构版本风险2. 构建中文分词器python -m src.build_tokenizer这将使用BPE字节对编码算法训练分词器设置ByteLevel解码器确保中文输出正常保存到tokenizer/tokenizer.json3. 配置文件确认config.yaml包含了所有必要配置我在这里给每个参数加了个说明以便于理解每个参数的意义。model: n_layer:4 # 模型的Transformer层数决定了模型的深度。这个小模型使用4层平衡了参数量和性能。n_head:4 # 注意力头的数量每个头可以学习不同的语义表示。4个注意力头适合小参数量模型。每个头的维度为64256/4。n_embd:256 # 嵌入向量的维数决定输入的维度。这个小模型使用256维的嵌入向量。seq_len:128 # 序列最大长度模型能处理的最大token数量。设为128是为了在CPU上高效训练。dropout:0.0 # 丢弃率用于防止过拟合。决定模型训练时是否进行dropout。这个小模型不使用dropout。training:batch_size:16 # 批次大小决定每次训练的样本数量。这个小模型使用16个样本进行训练。micro_batch:4 # 实际每次前向传播的批次大小用于梯度累积。微批次大小每个批次进一步分为4个微批次进行训练。这个小模型使用4个微批次。lr:0.0003 # 学习率决定模型训练时参数的更新速度。这个小模型使用0.0003的学习率。weight_decay:0.01# 权重衰减一种正则化方法防止模型过拟合。权重衰减决定模型训练时参数的更新大小。这个小模型使用0.01的权重衰减。max_steps:2000 # 最大训练步数决定模型训练的轮数。这个小模型使用2000个训练步数。warmup_steps:5 # 预热步数决定模型训练时参数的预热数量。这个小模型使用5个预热步数。eval_interval:20# 评估间隔决定模型训练时评估的间隔。这个小模型使用20个训练步数间隔评估模型性能。save_dir:checkpoints# 模型保存目录。seed:42 # 随机数种子决定模型训练时参数的初始化。这个小模型使用42作为随机数种子。data:train_path:data/train.jsonl # 训练数据路径。val_path:data/val.jsonl # 验证数据路径。format:instruct # 数据格式这里使用instruct格式包含prompt和completion字段。tokenizer:type:hf_tokenizers # 分词器类型这里使用hf_tokenizers即Hugging Face的分词器。path:tokenizer/tokenizer.json # 分词器路径这里使用tokenizer/tokenizer.json。4. 执行训练python -m src.train5. 测试模型训练完成后根据src/train.py中的代码最终会在config.yaml指定的目录下(checkpoints)生成一个标准的模型以及一个量化的模型分别是:last.ptquantized.pt然后你可以用下面的命令来测试一下训练集位于data/train.jsonl)里的一些问题测试问题1解释RoPE的作用python -m src.infer --prompt 解释RoPE的作用 --ckpt checkpoints/last.pt --temperature 0.0 --show_label测试问题2解释蒸馏水与纯水区别python -m src.infer --prompt 解释蒸馏水与纯水区别 --ckpt checkpoints/last.pt --temperature 0.0 --show_label测试量化模型python -m src.infer --prompt 什么是注意力机制 --ckpt checkpoints/quantized.pt --temperature 0.0 --show_label四、关键技术点解析在这个示例的大模型训练里我们基于Decoder-only的Transformer因果语言模型使用下三角掩码确保每次只关注历史信息这正是GPT系列模型能够生成连贯文本的核心。1. 训练参数说明具体的训练参数我在上面的config.yaml里给每个参数都写了一个注释用于说明每个参数的意义。而总结概括一下这个配置参数的话主要如下模型结构优化使用RMSNorm代替LayerNorm计算更高效采用RoPE相对位置编码避免位置编码长度限制词嵌入与输出层权重共享减少参数量训练优化梯度累积实现大批次效果学习率预热防止训练不稳定仅对答案部分计算损失通过ignore_index-100CPU优化动态量化减小模型体积设置合适的线程数禁用DataLoader多进程2. 关键代码因果掩码与前向传播src/model.py: 95–103RoPE实现src/model.py: 18–31自注意力前向src/model.py: 41–58残差块src/model.py: 81–84五、补充说明1. 仅3.37M参数远达不到scale law这个项目只是一个演示项目教你如何自己动手从0到1来训练一个大模型但是必须要知道的是大模型有个别称是 scale law所以走传统transfomer路线的话注意力是非常吃参数的这么一个参数量其输出完全肯定不会非常好除非你问的就是训练集里的知识。 同时在这个项目的训练集位于data/train.jsonl)里你也可以看到虽然有510条训练数据但实际上里面的内容全是Ctrl C Ctrl V出来的真正的prompt和completion就几条。2. 为什么问一些不在训练集里的问题时返回乱七八糟的东西而不是“不知道”大模型的本质是一个词语接龙游戏每出一个字根据概率去预测下一个字是什么。其目标是生成流畅的文本而不是正确的文本它只是在模仿训练集里的文本概率而不是真正的理解内容所以最终的效果完全取决于你给它的训练数据。 因此当你去问不在训练集里的问题的时候大模型就只能随便的去猜下一个字可能是什么字而不是直接给你回答一个“不知道”这也是大模型“幻觉”的由来。3. 关于大模型幻觉大模型幻觉主要有四种幻觉类型前后矛盾提示词误解事实性幻觉逻辑错误。 幻觉主要有三大成因数据质量问题生成机制缺陷模糊指令。 幻觉通常有五种解决方案精准提示词、示例学习、调参、RAG技术、幻觉检测方案并让大模型学会给答案标注“参考文献”溯源。4. 大模型使用对于一个已经训练好的模型在API调用时有几个常用的参数是可以影响大模型给你一个你期望的结果的这几个参数主要是temperature、top-k、top-p以及prompt引导。temperature通常0.1到0.5。温度越低输出越稳定温度越高输出越天马行空也可以说越有创意。top-k10到30。只保留前 k 个选项而如果这 k 个选项里都没有 “有依据的答案”模型就只能输出prompt引导的 “不知道”。top-p0.1到0.4。只保留累计概率 p 的选项。top-p与top-k一起用在top-k中的给出的词汇中进行二次筛选。无依据时这个词集中只会包含 “不知道” 这类标准回复而非编造的低置信词。prompt在 prompt 中明确指令“对于你不知道、没有相关信息的问题直接回答‘不知道’无需额外解释。”祝同学们都能轻松上手大模型一起学习AI一起追赶时代。​最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

iis v6 新建网站建设论坛网站视频

校园外卖 目录 基于springboot vue校园外卖系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue校园外卖系统 一、前言 博主介绍:✌️大…

张小明 2026/1/3 12:07:52 网站建设

青岛 外语网站建设酒类网站该怎么做

1蓝牙基础知识 1.1蓝牙概述 蓝牙,是一种利用低功率无线电,支持设备短距离通信的无线电技术,能在包括移动电话、PDAQ、无线耳机、笔记本电脑、相关外设等众多设备之间进行无线信息交换,蓝牙工作在全球通用的2.4 GHz(2.4 至 2.485 G…

张小明 2026/1/3 11:24:59 网站建设

西安企业建站价格如何做网站管理

Langchain-Chatchat问答系统灰度上线监控指标设定 在企业知识管理日益智能化的今天,一个突出的矛盾逐渐显现:如何在利用大模型提升效率的同时,确保敏感文档不外泄?尤其是在金融、医疗和法律等行业,数据合规性已成为技术…

张小明 2026/1/3 12:32:05 网站建设

上海网站优化哪家好站群系统程序

SSCOM串口调试工具与Kotaemon智能体通信集成方案 在工业自动化和设备运维的日常场景中,一个常见的痛点浮现:技术人员面对一台运行异常的温控仪,需要翻出尘封已久的协议手册,打开SSCOM串口助手,手动输入一串十六进制指令…

张小明 2026/1/3 15:37:04 网站建设

flashfxp发布网站免费logo图片在线制作

通过 Baklib 平台,SmartSalary 成功建立了行业内领先的多语言数字内容门户,助力其人力资源系统软件在全球市场快速扎根。一、客户背景SmartSalary Pro 是一家专注于人力资源系统软件解决方案的科技公司。随着其核心产品在国际市场的拓展,特别…

张小明 2026/1/3 10:26:47 网站建设

现在的网站开发方式千锋教育视频

Linux 用户、组管理与文件系统操作指南 1. 用户与组管理 在 Linux 系统中,用户和组的管理是系统管理的重要部分,它涉及到用户账户的创建、删除、修改,以及用户组的管理等操作。 1.1 理解 /etc/passwd 文件 /etc/passwd 文件是所有用户账户的列表,它是一个文本文件,任…

张小明 2026/1/3 14:52:40 网站建设