山东青岛网站建设公司哪家专业网站用户注册怎么建-Seo优化-果洛藏族自治州网站建设公司

山东青岛网站建设公司哪家专业,网站用户注册怎么建,html5手机端开发软件,大多数网站开发现状本文系统介绍了人工智能领域的基础概念#xff0c;重点解释了神经网络如何通过将实际问题转化为数学问题来学习。详细阐述了神经网络作为复杂函数的表示方法、参数学习中的最优化问题、梯度下降和反向传播的工作原理#xff0c;以及不同类型的损失函数。通过天气预测等实例重点解释了神经网络如何通过将实际问题转化为数学问题来学习。详细阐述了神经网络作为复杂函数的表示方法、参数学习中的最优化问题、梯度下降和反向传播的工作原理以及不同类型的损失函数。通过天气预测等实例展示了从问题建模到训练学习的完整流程帮助读者理解大模型背后的数学原理和核心机制。这期内容写什么我犹豫了很久本来是想写一些别的论文但是了解到很多朋友对人工智能领域中的一些基本概念还不太清楚但是又很感兴趣所以还是决定出一期内容专门来讲讲这些看起来高深的基础概念到底是什么。本期内容目录如下问题建模将实际问题转化为数学问题神经网络复杂函数的表示参数学习最优化问题关于batch norm 和 layer norm区别的直观示例梯度下降调整参数的方法损失函数衡量误差的指标梯度的定义和参数更新训练学习的流程首先一言以蔽之当前你看到的任何模型不管是Transformerdiffusion modelVAEworld model还是什么天花乱坠的看着不明所以的模型本质上都是各种不同结构的神经网络。而神经网络的训练、学习全都是同一个方式——梯度下降和反向传播。总之你可以把神经网络想象成一块积木而那些拥有天花乱坠的各种名字的模型全都是用这块积木搭建成的不同形状的东西。Transformer的名字最形象中文名变形金刚变形金刚本身也是积木搭出来的。虽然这个名字是因为作者喜欢变形金刚才取的但是也确实很符合Transformer现在作为大模型基石的地位它本身很强大但同时又很灵活可以有各种应用和变体。其实我觉得现在很多教程都讲反了上来就给公式说结论看着不明所以。而我们日常生活中的逻辑一定是先遇到一个问题然后才想到要用什么方法去解决而这些模型都属于方法所以我们必须要先把问题讲清楚。问题建模将实际问题转化为数学问题我们生活中所有的问题都可以用数学建模如果解决不了基本上就是你建的模不行或者数据量不够。打个比方明天某地天气如何这看起来和数学没关系吧但实际上你可以把天气分类成晴、阴、雨、雪、雾这就成了个分类问题。这个问题可以被表示成输入是过去某地区几年内的每天的天气、这个地区所在的经纬度等输出就是应晴、阴、雨、雪、雾这五类天气的概率都是0~1之间的值。输入也给成这种数据形式那就完全可以用数学来解决。而这种把实际问题转化成数学问题的过程就称为建模也可以理解成把实际问题翻译成数学语言来表达。再比如我们平时刷短视频为什么存在信息茧房为什么你越喜欢什么你就越能刷到什么内容?是因为平台收集了你点击的视频数据他们会拿去建模你的喜好和你的个人特征。首先他们自己的视频会有一些标签比如知识科普个人成长萌宠育儿职场旅行情侣美食舞蹈音乐电影动漫美妆穿搭等等等等你点击哪一类的更多在哪一类视频上的停留时间更长那他们就会更多的给你推荐这一类而且从喜好上也可以反推出你个人的一些特征比如你看育儿的多那你大概率是个宝妈你看职场的多那你大概率是个牛马等等。所谓推荐算法就是建模你的喜好得来的。我们都学过函数知道yF(x)其中x是输入y是输出F(x)是x和y的对应关系对吧。上面的两个例子中历史天气经纬度、视频点击输入就都是x而明天天气、个人喜好特征就是它们对应的y我们要学的或者说我们想得到的就是yF(x)的一个对应关系我们希望通过这个对应关系可以用已知的数据去预测明天天气、个人喜好。神经网络复杂函数的表示在神经网络出现之前遇到这种问题要怎么解决呢数学家或者说算法专家们会绞尽脑汁的试图建立一个公式来描述输入的数据和输出的数据之间的关系。但这很难很复杂对吧然后神经网络出现了。这是一种非常暴力的解法。我管你输入输出什么关系你自己用数据自己学。接下来我们就展开讲讲神经网络是什么为什么这个东西给它点输入输出的真实数据样本它就能自己学了。这张图就是一个非常简单的神经网络。隐藏层其实就是除了输入输出之外的所有层我们还可以再添加更多的隐藏层但是输入和输出都是只有一层的。接下来我们把上文说的天气问题简化一下来看看如果套用神经网络天气该怎么学。假设输入只包含两个数据就是今天的天气x1(假设只包含阴晴两种天气阴天用0表示晴天用1表示)和经纬度x2(假设经度116纬度39表示成11639)输出y用一个0~1之间的值表示明天是个什么天气的概率。y1表示阴天的概率y2表示晴天的概率其他天气先忽略。除了x1,x2和y1,y2之外我们还看到了连接线上标注的权重wij这些表示的其实是输入对输出影响的强度。怎么理解呢其实神经网络这个东西来自于我们人脑的神经元如下图。看着有点复杂对吧没关系我们把复杂的部分全给它盖住简化成下图是不是和神经网络那张图一模一样其实w代表的就是神经元之间传递的信号强度比如说x1这个神经元本身的信号强度是1w11的传输强度只有0.6那么传给h1的时候就变成了x1*w111*0.6也就是说只剩0.6了。但我们可以看到h1的信号来源不止有x1还有x2假设x22w120.4那h1x1*w11x2*w121.4后面的y1的计算也是同理我们先忽略掉激活函数这个概念假设y1w’11*h1w’21*h2w’31*h3那么我们是不是可以很清晰的看到y1和y2与x1和x2之间建立了如下的函数的对应关系所以神经网络本质上表示的就是更加复杂的函数。参数学习最优化问题那神经网络学的是什么呢它和我们平时给个输入给一堆条件让你建立方程求结果的过程不一样它学的是w这些参数的值我们要求解的是参数这在数学中被称为最优化问题。这么多个参数怎么求解参数太多了没法解方程。怎么办靠猜对就是这么朴素。猜所以初始值可以是随机的。但是关键是你猜的不对的时候怎么优化呢比如你现在有个数据样本昨天的天气是晴也就是x1是1经纬度x2的值就是11639然后今天的天气也是晴也就是y1是0y2是1。初始的时候你先随便猜了一些参数w。为了方便计算咱们先假设全都是1。你带入算了一下子得到y1y234920你跟答案的y10,y21对比了一下你说不行这太离谱了误差太大了。你发现输入x2的值普遍很大对结果影响很大所以得把跟他有关的参数全调小。然后你就一点一点的试直到你得到了一组w当x11,x211639的时候y1,y2的值和答案大差不差。这是一种方式还有另外一种方式是将数据调整成范围差不多大的然后再去调整参数。比如我们可以让1.1639来表示经纬度(116,39)这样让数据分布的范围更集中往往训练效果更好(我们的大脑神经元的电信号也是集中分布在几十μv不会差太多)。实际中我们一般采用的是归一化的方式来达到类似的效果NormNormalization说的都是这种方式。那么我们之前在确定参数的时候为什么不搞一组参数让你得到的y1,y2和答案完全一样你只有一组或两组x,y的样本数值时当然可行但数据点多了之后不会那么理想的聚在一条直线上难免会有误差咱们拿最简单的线性关系ywx来看一下关于Batch Norm和Layer Norm区别的直观示例关于Norm操作很多朋友可能都听过Batch Norm和Layer Norm我们现在就用这个例子来直观的看一下这两种Norm方式的区别。来看下面这两组数据每一行代表[x1,x2,y1,y2]Batch Norm是针对一个批次(batch)数据的归一化操作我们现在这个批次有两个数据我们关注的是batch数据的分布也就是不同数据样本之间的关系所以我们的归一化是纵向求平均值和方差得到根据这个平均值和方差利用下面的公式将原始的数据进行归一化这里面ϵ是个很小的正数为了防止分母为0我们取1e-8归一化后的两组数据如下Layer Norm与Batch Norm不同针对的是单个数据内部的归一化操作也就是说会对每一行取均值和方差。再次利用之前的归一化公式得到这两种归一化方式各有利弊。比如batch norm通常需要一个batch的数据量更大一些。像我们这个例子一个batch只有两个数据就不行这样得到的均值方差不准确。梯度下降调整参数的方法好的现在我们知道当我们自己想构造一个拟合这些数据关系的曲线时我们会有一个怎么去调整的‘直觉’但是当我这个神经网络的参数变的非常多比如输入的x有50个每个x的值的区间还都差不多而h有100个y有10个这需要50*100*10个w你很难一下子猜出来该调整哪些w怎么调整那怎么办呢损失函数衡量误差的指标我们还是来看天气的例子。现在我们的误差是这么算的可以看到y1和e1y2和e2之间是线性关系也就是说y1变小e1也变小y2小e2也小。这里的误差其实在神经网络中有另外一个别名叫损失而上面计算误差的公式又叫损失函数(loss function)上面的公式对应的损失函数是这里为了避免把我们构建的神经网络所表示的y和真实的y值弄混我们把真实值y(又被称作标签)一律用常数c表示L是loss的缩写也就是损失同时也是误差。有的人可能会发现这个损失函数存在一些问题不过因为它非常简单所以我们现在还是继续先用它来讲解至于它存在什么问题我们后面会展开说。现在我们的目标是让所有真实的样本误差越接近0越好也就是让损失的累加和趋近于0。这里面N表示的是数据样本的数量也就是说要把每个样本的误差都相加最后取平均用这个平均值来衡量你建立的函数关系对真实的样本数据的拟合程度拟合的越好你的误差平均值自然就越小。所以我们想调小L就要把y1,y2调小那y1,y2怎么调小对固定的数据x是常数值所以要调整w。我们先只把y1展开这个式子中的每个w都是可以影响L值的变量。我们为什么直觉上知道想要调小L就要让w11,w21等等这些参数都缩小呢直观来看我们知道L和这些w11等全部都是类似下图的线性关系(其他w固定成1)所以w11变小L也会变小。但是当L和w不再是这种简单的线性关系你很难直观的看出该怎么调整参数w调整多少才能真的让L变小的时候要怎么办呢梯度的定义和参数更新还记得梯度的定义吗梯度是一个偏导数构成的向量它的方向是函数在当前数值点增长最快的方向大小描述了函数在该方向上的瞬时变化率。图上的红色箭头就表示L在其他参数全为1梯度在w111时的方向。所以如果我们想让L变小就要向梯度的反方向调整w11。再加个w12其他参数固定我们要向梯度的反方向调整w来让L变小。那其他参数怎么调其实和这两个是一样的每个维度都向L缩小的方向迈一小步。这就称为梯度下降。这就是整体的梯度的向量。同时我们还会用一个参数α学习率用来控制每次调整的幅度大小也可以从字面上理解成学习的速度。现在我们知道该怎么调整参数让L变小了。训练学习的流程其实这个不断调整参数来让拟合函数的误差与真实数据误差越来越小的过程就是神经网络的训练、学习的过程。我们来从头到尾捋一下流程。接下来我们用一个简单的数据样本来顺着这个流程走一遍。我们的数据只有一个(1,1,1,1)batch1学习率α0.1初始化所有w都等于1。我们根据公式一层一层向前计算(前向传播)先得到h1h2h32再计算一层得到y1y26。接下来计算损失值L10。梯度如下新的参数第二次再根据新的参数前向传播得到h1h2h31.8y1y24.32这次再次计算损失L8.64误差真的变小了值得注意的是实际上反向传播虽然本质上是计算梯度的操作但相比我们平时计算梯度时使用的复杂的链式法则反向传播采用了一种更为巧妙的计算方式如果没有这种计算方式那么复杂函数的梯度求解会非常麻烦。这个其实也可以展开一期内容不过这里就先不多讲了我们知道反向传播是用于实现梯度下降的手段就可以了。对代码实现感兴趣的朋友可以看一下我们上面的简单的训练过程对应的代码python 6import torch 7 8class SimpleNet: 9 def __init__(self): 10 # 初始化权重为 1 11 self.w torch.ones((3, 2), requires_gradTrue) 12 self.w_prime torch.ones((2, 3), requires_gradTrue) 13 14 def forward(self, x): 15 # 前向传播计算隐藏层输出 h 和输出层输出 y 16 h torch.matmul(self.w, x) # matmul:矩阵乘法 17 y torch.matmul(self.w_prime, h) 18 return h, y 19 20 def backward(self, x, y_pred, target): 21 # 计算损失均方误差 22 loss torch.mean((y_pred - target) ** 2) 23 # 反向传播开始 24 loss.backward() # 计算梯度存入.grad中 25 26 # 打印梯度信息 27 print(w的梯度, self.w.grad) 28 print(w的梯度, self.w_prime.grad) 29 30 return loss.item() 31 32# 输入样本 33input_sample torch.tensor([1.0, 1.0], requires_gradFalse) #x1,x2 34target torch.tensor([1.0, 1.0]) # y1,y2 35 36# 创建网络实例 37net SimpleNet() 38 39# 前向传播 40hidden_layer_output, output_layer_output net.forward(input_sample) 41 42print(隐藏层输出: , hidden_layer_output) 43print(输出层预测值: , output_layer_output) 44 45# 反向传播 46loss_value net.backward(input_sample, output_layer_output, target) 47print(损失值: , loss_value) 48 49# 更新权重手动更新模拟优化器 50learning_rate 0.01 51with torch.no_grad(): 52 net.w - learning_rate * net.w.grad # .grad取梯度 53 net.w_prime - learning_rate * net.w_prime.grad 54 # 清除梯度以便下一次迭代使用 55 net.w.grad.zero_() 56 net.w_prime.grad.zero_() 57 58print(\n更新后的权重 w:) 59print(net.w) 60print(\n更新后的权重 w:) 61print(net.w_prime)我们从代码中可以看到前向传播其实就是矩阵乘法而反向传播被打包到了loss.backward()方法中其实就是梯度的计算。损失函数的改进细心的朋友应该能够发现上面代码实现的损失和我们的Ly1y2-c1-c2并不一样而是采用的均方误差。这就是我们前面提到的Ly1y2-c1-c2存在问题。来看回这张图如果我们的误差loss用y1-c去计算那么这几个数据点的误差分别是0.5,-0.5,0.5,-0.5最后相加结果为0被抵消了所以为了误差不被抵消于是我们就用它的平方去计算损失了我们把累加和还有平均的操作也一起加进去得到公式需要注意的是这个损失函数依然存在问题不过至少我们现在已经解决了误差抵消的问题了这个公式其实就是典型的均方误差的形式平方括号中的第一项就是你构造的神经网络估计出来的y值第二项是真实的y值。那么这个损失函数还存在什么问题呢我们最初想要解决的是预测明天天气的问题对吧我们预测的实际上是天气的概率分布但是我们没有把最终的输出当作一个概率分布来处理而是简单的当作数值来回归。实际上我们应该把阴天和晴天建模成一个离散的条件概率分布:这里面隐含了概率的区间范围以及y1和y2的关系如果我们只把y1,y2当作数值来拟合很可能无法学到这两种特性比如预测值可能出现晴天概率0.8阴天概率0.4但如果我们用新的建模方式就不会出现这种问题了。那么当神经网络要拟合的不再是线性/非线性的函数关系而是上面的条件概率分布时损失该怎么计算呢还用均方误差吗不这个时候要用交叉熵损失这个损失能够衡量两个分布之间的差异one-hot分类问题中(任意数据仅属于一个类别就是y11,y2就为0不会出现y11,y21的情况之前我们捋训练流程的时候举的例子是因为好算)交叉熵就等于KL散度这里面i代表的是类别我们只有两类那就是y1和y2。我们给一个标签y11,y20和预测值y10.8,y20.2以及预测值y10.2,y20.8用这个公式来计算一下损失。第一个预测值的损失为最终得到L0.2231第二个预测值的损失为L-log(0.2)1.6094关于交叉熵和KL散度的内容感兴趣的朋友可以关注我后续发的文章我会单独写一期因为涉及到计算机领域的一些编码和信息论的知识现在我们只需要知道损失函数是有多种形式的不同的问题适合不同的损失函数就可以了。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

山东青岛网站建设公司哪家专业网站用户注册怎么建

韶关网站seo1 分析seo做的不好的网站

免费建网站的作用网站建设课程基础

企业软件管理系统嘉兴seo推广优化

内部网站建设合同求邯郸网站制作

圆通速递我做网站咋么做网站

沈阳seo网站推广广告推广平台有哪些