上海做网站的公司电话网站建设的可行性

张小明 2026/1/3 3:15:58
上海做网站的公司电话,网站建设的可行性,保山市住房和建设局网站,新闻式软文范例本文主要根据我的赛博导师 Karpathy 的视频《Deep Dive into LLMs like ChatGPT》整理#xff0c;非常适合刚入门 AI 的朋友建立关于大语言模型#xff08;Large Language Model#xff0c;下文统称为 LLM#xff09;的全局观#xff0c;对非技术的朋友也非常友好#xf…本文主要根据我的赛博导师 Karpathy 的视频《Deep Dive into LLMs like ChatGPT》整理非常适合刚入门 AI 的朋友建立关于大语言模型Large Language Model下文统称为 LLM的全局观对非技术的朋友也非常友好我刚学习 AI 的时候有很多这样的问题经常听到的“调参”是什么意思为什么模型有时会一本正经地胡说八道推理模型真的会思考吗Tokenization、SFT、RLHF这些又是什么…别急希望看完本文也强烈推荐看原视频哦你会对以上问题有个清楚的答案Q开发像 ChatGPT 这样的 LLM 一共需要多少步A只需要三步预训练 、监督微调和强化学习后训练 Post-training指的就是后面两步不开玩笑真要开始学了1. 预训练Pre-training预训练是成本最贵、也最耗时的阶段通过在海量互联网文本上训练模型来预测下一个词Token构建出一个基础模型Base Model。1.1 数据收集与处理如图收集到的原始数据需要经过多步的过滤和清洗以确保数据的质量、多样性URL过滤移除包含恶意软件、垃圾邮件等不良网站的 URL文本提取从原始 HTML 代码中提取正文内容去除导航栏、广告、代码标记等无关信息语言过滤通过语言分类器筛选出特定语言的文本这一步决定了模型未来的多语言能力去重与PII移除去除重复内容并识别和删除个人身份信息PII如地址、号码等1.2 分词Tokenization分词过程是将原始文本转换为神经网络能处理的一维符号Token序列也就是将人类的语言翻译成大模型的语言。业界普遍使用字节对编码Byte Pair Encoding, BPE算法或其变体可以将文本中连续的、高频出现的符号对合并成一个新的 Token从而在压缩序列长度的同时构建一个高效的词汇表。如图我们看到的是“Hello World!”而大模型看到的实际是一串数字比如下图中“19923, 4495, 3”。诶为什么这里用的是“比如”因为每个模型的训练数据、算法和协议会有差异所以同一段文本在不同模型中得到的分词序列Token ID 序列是不一样的。如图“Hello World!”在 Qwen2.5-72B 模型看来就是“9707, 4337, 0”。1.3 训练神经网络训练神经网络的核心目标是预测序列中的下一个 Token。在训练开始时模型的参数是完全随机设定的。模型接收一段 Token 序列作为上下文将序列输入到神经网络中然后通过计算一个数学表达式预测下一个 Token 的概率分布。可以将模型理解为一个巨大的数学表达式参考下图会将 Token 输入和参数混合在一起进行数学运算然后预测概率。因为模型是由输入的数据训练的我们知道正确的下一个 Token 是什么。然后模型就会计算预测概率与正确答案之间的差异称为损失通过不断调整参数也称权重让损失降低也就是提高正确 Token 的预测概率。训练的本质就是找到一组最优的参数设置使得模型能够最好地拟合训练数据中的模式。可以将这个训练过程想象成操作 DJ 设备你要不断调整设备上的旋钮使得出来的效果刚刚好。没错模型名称中的数字代表的就是参数数量。比如下面这个模型Qwen3-Next Instruct80Bbillions of parameters指的是模型总共包含 800 亿个参数A3B 代表只有 3B 参数被激活和使用。这意味着每次生成 Token 时实际参与计算的参数量会大幅减少那么计算消耗的资源也会减少也就是说单位时间内可以处理更多的 Token 或用户请求。1.4 推理Inference训练完成后模型参数会被固定下来然后进入推理阶段即生成新文本。用户输入的文本Prompt作为初始上下文。模型基于这个上下文预测下一个 Token 的概率分布然后从分布中随机采样Sampling一个 Token。这个新采样的 Token 会被添加到上下文末尾成为下一次预测的新输入。如此循环模型便逐个 Token 地生成了完整的回答。注意这里的关键词随机这也就解释了为什么即使输入相同模型每次也会生成不同的的答案。另外概率高的 Token 更可能被选中但不是唯一的可能。在实际应用中Temperature温度是控制概率分布“尖锐”程度的参数。低 Temperature 意味着概率分布更尖锐 出现概率高的 Token 被选中的可能性更大 生成的文本更具确定性。小结预训练阶段的最终产物被称为基础模型相当于一个互联网文档模拟器internet document simulator能够生成类似输入数据的文字但不具备对话能力无法理解指令或问题。模型通过参数来存储从海量互联网数据中学习到的信息这些知识就像是对预训练数据的一种有损压缩lossy compression类似我们模糊的记忆你就说记没记。另外模型在推理时可以访问的上下文窗口就像人类的工作记忆容量有限但记忆更准确。2. 监督微调Supervised Fine-Tuning, SFT这个阶段的目标是将基础模型训练为一个能对话的AI 助手Assistant。如图监督微调会用一个全新的、高质量的对话数据集替换掉预训练时的互联网文本并继续在基础模型上进行训练。这个阶段的数据来源以下三个方面人工标注标注员根据详细的标注指南例如要求回答做到“有用、真实、无害”来编写各种各样的问题Prompt以及参考回答专家参与请专业领域如编程、法律的专家进行标注以确保数据质量合成数据大量使用 LLM 来辅助生成对话数据再人工编辑、筛选以扩大数据集规模和多样性为了让模型理解对话结构还需要引入特殊的控制 Token如[ASSISTANT]或im_start等将多轮对话编码成单一的 Token 序列。监督微调的本质是通过在这些“参考对话”上训练让模型学会模仿回答。这就可以解释模型为什么会编造答案了。另外我们常说的模型性格也是在这个阶段训练形成的。那么如何减少模型幻觉呢测试模型知识的边界并在其知识盲区向训练数据中添加如“对不起我不知道”作为正确回答范例让模型使用工具比如通过上网搜索或写代码解决问题3. 强化学习Reinforcement Learning, RL强化学习的目标是让模型通过自主练习和探索试错发现最能稳定解决问题的路径。这个阶段能进一步提升模型能力尤其是复杂推理能力。3.1 可验证领域的 RL在数学、编程等有明确正确答案的领域RL 的应用流程如下生成多种解决方案 (Rollouts)针对一个问题让模型生成上千种不同的解决过程自动评分用一个程序或另一个 LLM 作为裁判判断每个解题过程是否得出了正确答案强化训练只在那些成功得出正确答案的序列上进行训练这会“奖励”并强化模型学会正确解法在 RL 阶段模型会自发地学到一些复杂的认知策略而不是被规定的比如自我反思“等等让我重新检查一下这一步”多角度验证“我用另一种方法比如建立方程再算一遍看看结果是否一致”回溯修正发现错误后返回并修正经过这种训练的模型被称为“推理模型”或“思考模型”Thinking Mode。这种模型的回答一般更长且会包含内部的思考过程也能更准确地解决复杂问题。模型需要 Token 来思考模型生成的每一个 Token 都需要一次计算但计算量是有限的。所以为了解决复杂问题模型必须学习将推理和计算分散到多个 Token 序列中也就是生成中间步骤。如下图不推荐在一开始就给出答案逐步推理得出答案的准确性会更高。感觉这也是一种“大力出奇迹”比如 Claude Code 中用 Ultra Think 模式的效果会更好因为很舍得花 token3.2 不可验证领域的 RLRLHF对于写作这类没有正确答案的领域无法自动评分于是有了基于人类反馈的强化学习Reinforcement Learning from Human Feedback, RLHF。核心思想训练一个“裁判”让模型针对一个创意性问题生成多个不同的回答请标注员对这些回答进行排序从最好到最差训练一个独立的神经网络称为奖励模型 (Reward Model)让它学习模仿人类的偏好和排序用这个奖励模型作为自动“裁判”对 LLM 生成的大量回答进行打分并据此进行强化学习优点让 RL 也能处理主观评价问题。对人类来说给几个答案排序比亲自写一个完美答案要容易很多这大大降低了人工标注的成本缺点奖励模型本质上只是对人类偏好的一个粗略模拟而且容易被钻空子。RL 过程特别擅长找到奖励模型的漏洞然后产生一些毫无意义、但能骗取高分的答案。所以RLHF 只能作为有限的微调方法不能持续提升模型能力总结说了这么多不知道有没有似曾相识的感觉搭建 LLM 和学生时代的学习过程不是一样吗首先要通读教材预训练理解所有内容打好基础。然后看例题监督微调通过参考标准答案学习解题思路。最后是刷题强化学习只知道题目和结果要反复尝试后得出正确的方法。区别可能是你每次只能学一个章节但是 LLM 能学习海量数据。LLM 现在的能力就像这个奶酪看着没啥问题但会有些随机的小坑比如经典的错判“9.11 比 9.9 大”。因为模型的世界是由 Token 构成的就是一堆数字而不是我们看到的字符所以模型在处理字符、计数、拼写相关任务时表现会不大好。这里要注意不能完全照搬大模型的回答要保持判断对自己交付的内容负责bhys有点说教了但真的是血泪教训。最后Karpathy 还提到了未来发展方向25年初的视频预测好准25年就是 Agent 之年和推荐的资源详看参考资料多模态Multimodality模型将原生支持文本、图像、音频的输入和输出实现更自然的交互智能体Agents模型将能执行更长期、多步骤的任务从简单的问答工具演变为工作助手比如 Manus普适化与隐形化Pervasive InvisibleLLM 将深度集成到操作系统和各种应用中成为无处不在的后台能力参考豆包手机助手计算机使用Computer-Using模型将能代表用户在浏览器或应用程序中执行复杂的任务和操作比如 ChatGPT Operator测试时训练Test-time Training探索让模型在推理过程中也能持续学习和更新参数的方法而不再是“一次训练永久固定”最后的最后还想再分享一下很喜欢韦青老师在播客中提到的一点在中文环境中把 large language model 翻译成大语言模型是一个很大的误导。这一轮的大模型学的是文字所以 LLM 实际上是大文字模型。中文是象形文字文字只是语言的一部分还有很多隐性的知识比如声音、表情是大模型还不能理解的。好啦感谢你看到这里欢迎在评论区交流讨论如果有表述不当的地方请随时指正想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容​一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容​2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

怎么做盗版电影网站吗建设银行江苏省分行网站

泳池智能水管家推荐:5款高性价比设备实测解析在洗浴行业竞争日益激烈的今天,水质管理正成为决定用户复购率的核心因素。当浴室能够实现“无呛鼻氯味、水体清澈透亮、皮肤泡后不痒、空气清新舒适”的体验时,其竞争力便已悄然超越传统服务模式。…

张小明 2025/12/31 16:49:03 网站建设

网站设计的公司叫什么搭建网站团队计划

第一章:临床数据的R语言生存曲线绘制概述在临床研究中,生存分析是评估患者从某一时间点到发生特定事件(如死亡、复发)时间分布的重要统计方法。R语言凭借其强大的统计计算与图形展示能力,成为实现生存曲线绘制的首选工…

张小明 2026/1/2 12:29:12 网站建设

vue如何网站开发影视网站建设的总体目标

继前分享的锂电池数据 精品数据分享 | 锂电池数据集(一)新能源汽车大规模锂离子电池数据集 精品数据分享 | 锂电池数据集(二)Nature子刊论文公开锂离子电池数据 精品数据分享 | 锂电池数据集(三)西安交通…

张小明 2026/1/2 10:55:06 网站建设

网站的建设及维护小白怎么做跨境电商

结合过去几年我们对前沿趋势的关注,以及从服务客户的一线获取的一手信息,我们展望了2026年数据分析的十大趋势,并将逐一展开解读。 趋势一:Data Agent开始规模化兑现价值 趋势二:AI数据分析迎来多智能体(…

张小明 2025/12/31 10:07:28 网站建设

网站设计哪家稳定做算法题的网站

MouseInc鼠标手势工具终极指南:从新手到高效的完整解决方案 【免费下载链接】MouseInc.Settings MouseInc设置界面 项目地址: https://gitcode.com/gh_mirrors/mo/MouseInc.Settings 你的鼠标操作效率还能提升多少?在Windows系统中,我…

张小明 2025/12/31 12:54:08 网站建设

网站源码怎么绑定域名wordpress怎样

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码及仿真咨询…

张小明 2025/12/31 9:08:47 网站建设