170章 渴望推扇门(7)
遇维度灾难,降维话高维数据很难进处理。
(ps:……数赋点满高维硬)
数据噪简化方法,降维处理处理数代机器习数据很帮助。
通降低数据维度,理论讲复杂棘问题变简单轻松。
机器习领域谓降维指采某映射方法。
将原高维空间数据点映射低维度空间。
做除噪音保存关注信息低维度数据。
研究员理解原本高维数据隐含结构模式很帮助。
原始高维度数据通常包含许关或冗余变量观测值。
降维被潜特征提取方法。
降维方法经常数据压缩、数据探索及数据视化。
话虽此,降维并像科幻书描述般扔二向箔完。
涉及降维件极其麻烦!
选择降维方法候,考虑很因素。
首先考虑输入数据性质。
比,连续数据、分类数据、计数数据、距离数据,它需降维方法。
数据性质分辨率考虑十分重。
果考虑输入数据性质贸进降维话虽够使高维模型低维化。
极使原本离散数据直接“湖”。
况比高维离散糟糕。
应正式降维技术。
高维数据进适预处理。
毕竟数据本数据。
候进预处理。
佳预处理方式引入降维。
陷入疯狂套娃循环。
言,高维数据进降维件超级麻烦。
实际进处理般语言处理方向研究员般竭力避免高维爆炸况。
等高维数据再进低维处理。
高维数据低维处理某程度更像迫已异常麻烦补救措施。
很东西因麻烦足让再见。
繁复程味容易错。
物呈形式应该简洁。
像欧拉公式般。
正因此,尹芙·卡莉觉林灰才表达思绝将高维数据降维低维数据。
【认识十老书友给推荐追书app,野果阅读!真特,车、睡靠朗读听书打间,载 www.yeguoyuedu.com 】
果林灰表达思高维数据做脚。
传统向量空间模型做文章?
将高维向量空间模型转化维度较低空间向量模型?
思路倒错。
尝试先并做。
很早进尝试。
早世纪末期提潜语义分析模型。
潜语义分析模型基空间向量模型(VSM)提。
潜语义分析模型其基本思文本空间向量表示。
通奇异值分解,将高维且稀疏空间向量映射低维潜语义空间。
低维文本向量单词向量。
再余弦相似度等度量方式计算文本间语义相似度。
潜语义分析本质思通降维除原始矩阵噪音,提高计算准确度。
虽思路错,方法并普适性。
因潜语义分析模型架构模型程采奇异值分解。
做法使计算复杂度增高,并且移植性较差。
方法提。
并尝试方法进改进。
世纪末。
研究员提概率潜语义分析模型。
模型基概率,基奇异值分解。
模型相比潜语义分析模型主差异增加主题层。
使期望化算法训练主题,并找概率性潜主题模型。
此预测文本空间向量观察数据。
概率潜语义分析模型,义词被归入主题,义词被归入主题。
避免义词义词文本相似度计算影响。
,概率潜语义分析模型参数随文档数量增加线性增长。
很容易拟合泛化良。
况很程度因维度爆炸。
因拟合高维空间预测相少参数低维空间预测参数两况。
避免维度爆炸提模型却维度爆炸。
少点悲剧。
实,并述两模型提。
很研究团队模型层做程度尝试。
模型南辕北辙,利降维。
降维带新问题。
,模型各通方。
尽管尹芙·卡莉相信林灰才。
尹芙·卡莉觉林灰很难数次尝试况找全新够规避维度爆炸低维模型。
尹芙·卡莉考虑很久通林灰究竟表达什思。
尹芙·卡莉刚才思考程林灰进阐述。
林灰听很认真。
听完,林灰笑:“高维向低维转化形。
且先提机器识别文本机器识别语言往往将语言数值化。
将数值进属性区分进步进向量化。
既明白,应该知涉及语言处理方向问题很容易维度爆炸很程度因原始数据维度极高。
况什直接源头解决问题原始数据做文章呢?”
听林灰话,尹芙·卡莉似乎灵魂深处被触般。
尹芙·卡莉颤声:“思,直接原始高维数据进低维化处理?
处理低维化数据,架构模型进语义文本相似度分析?”