169章 渴望推扇门(6)
尹芙·卡莉陈述完。
林灰领略思。
却并正回答尹芙·卡莉问题。
反问尹芙·卡莉:“关使向量介入进语义文本相似度计算怎?”
【推荐,野果阅读追书真,载 www.yeguoyuedu.com 快试试吧。】
虽林灰次交流提问题。
问题让尹芙·卡莉少点措及。
尹芙·卡莉太清楚林灰什提问题。
莫非依靠向量进语义文本相似度计算吗?
怎做呢?
机器识别文本机器识别语言,往往将语言数值化。
将数值进属性区分则必须进向量化。
方法已经很长间历史,尹芙·卡莉记1977(空)研究员首次提向量空间模型VSM。
经提研究方法比较受欢迎。
虽很快方法被漏洞。
利VSM方法话,文本量很,文本向量非常稀疏,导致空间计算资源浪费;
另外VSM达简化模型效果忽略词语间关系,很况词语间存联系,因此简单认词语间相互独立合理。
尽管明显漏洞,近四十历史,仍引入向量进语义文本相似度分析。
尹芙·卡莉先团队,虽先基网络知识计算文本相似度方法。
本质将Wiki百科网页内容映射高维向量,
再通基向量空间方法进语义文本相似度计算。
依旧离向量空间壳。
虽四十,遇谓“空间计算资源浪费”某程度通硬堆计算力暴力解决。
仅仅解决遇难题已。
文本处理信息量复杂程度完全语。
此向量化全新困难——维度爆炸!
维度灾难(名维度诅咒)早由理查德·贝尔曼考虑优化问题首次提术语,描述数空间维度增加,分析组织高维空间(通常百千维),因体积指数增加遇各问题场景。
数空间额外增加维度,其体积呈指数级增长。
难题低维空间遇。
比物理空间很少遇问题,毕竟物理通常三维建模。
很神奇,尽管物理很难遇维度爆炸问题。
语言处理、机器习方维度爆炸常。
领域随便点信息量轻易举突破三维。
其实很领域,采、组合数、机器习数据挖掘提及维度爆炸象。
问题共特色维数提高,空间体积提高太快,因数据变很稀疏。
高维空间,数据变很稀疏,很角度相似,因平常使数据组织策略变极其低效。
实尹芙·卡莉先团队应基网路知识进文本相似度衡量。
果直接网页进分析,往往导致知识含量稀疏计算困难。
实,况因维度爆炸导致。
尹芙·卡莉很清楚利向量引入语义文本相似度方法带维度爆炸。
林灰什突询问何将向量引入计算语义文本相似度呢?
莫非林灰真什办法够妥善处理维度爆炸问题吗?
机器习、语言处理方向维度爆炸并容易解决。
林灰打算干脆绕向量衡量语义文本相似度吗?
尹芙·卡莉虽知林灰什突问。
林灰提点机,尹芙·卡莉怎轻易放弃。
尹芙·卡莉先给林灰陈述西方计算语义文本相似度候向量通常客串角色。
尹芙·卡莉才正式始回答林灰先问问题:
“引入向量才使机器更方便处理语义文本信息。
果引入向量话处理语义文本相似度候选择方案很少。
且引入向量况,计算语义文本相似度选择方案少少点LOW。
比,基字符串方法,方法原始文本进比较。
主包括编辑距离、长公共序列、N-Gram相似度等进衡量。
编辑距离吧,其衡量两文本间相似度根据依据两文本间由转换另需少编辑操次数。
算法界定编辑操包括增加、删除、替换三。
长公共系列根据……
套衡量标准甚至点像Microsoft Word格式衡量般。
基字符串方法虽原理简单、实方便。
方法考虑单词含义及单词单词间相互关系。
涉及义词、义词等问题法处理。
目很少单独使基字符串方法计算文本相似度。
将方法计算结果表征文本特征融入更加复杂方法。
除方法外,……”
林灰解。
通尹芙·卡莉口判定空研究底什进展。
基字符串通编辑操、长公共系列方式衡量语义文本相似度确实点低端。
低端等,因此算法价值。
设,果文本识别领域取突破话。
界定文本相似度判断方法文本识别算法结合话。
反基字符串判定文本相似度方法贴切。
毕竟基字符串判别方法计算机视觉直观逻辑形式接近。
实文本识别算法世很寻常技术。
甚至随便聊软件截图工具很胜任文本识别任务。
空哪怕专门打文本识别噱头软件。
实际进工扫描文稿转PDF已。
涉及实际文本识别效率低批。
林灰感觉似乎间商机。
虽商机,适合做。
毕竟涉及文本识别方跟计算机视觉领域关系。
谓计算机视觉白让机器东西。
算工智领域。
领域研究让计算机系统够图像、视频其视觉输入获取义信息。
根据信息机器采取或提供建议。
果工智赋予计算机思考力。
计算机视觉赋予、观察理解力。
计算机视觉虽复杂吧。
码门槛比语言处理高。
显适合林灰掺。
林灰耐,林灰默默将件放。
林灰觉目光太短浅。
东西虽很鸡肋。
未必代表长远角度途。
念及此,林灰突觉很庆幸。
重,世经验让其游刃余。
另方,重带给让受益思维改变。
涉及很物林灰识考虑长线价值。
甚至经间考虑十二十。
长线思维方式。
林灰觉假定走鲜企及高度。
法足外。
虽基字符串评价文本相似度方法尹芙·卡莉分歧。
林灰并表露,术交流很候求存异已。
尹芙·卡莉继续陈述法:
“……觉将向量引入语义文本相似度衡量确实错主。
介入向量,像打潘拉魔盒。
向量处理语义复杂文本信息。
极其容易形高维空间,造维度爆炸。
况,应场景经常变极其糟糕。
经常维度爆炸问题。
实,维度爆炸问题已经很制约研究。
Dear林,知您关问题什法呢?”
林灰:“维度爆炸主高维难处理问题。
既此,什考虑将高维进降维呢?”
林灰语气风轻云澹。
仿佛叙述件般。
降维?将高维什进降维??
听翻译传信息。
尹芙·卡莉吐血感觉。
点文。
知林灰表达原将高维转化低维。
林灰表述候将高维某物转化低维翻译转达候却省略什东西。
果省略重名词实太糟糕。
底林灰表达将高维数据转化低维数据?
将高维模型转化低维模型?
抑或什其含义?
尹芙·卡莉很询问。
考虑林灰先米娜·卡莉做贴举。
尹芙·卡莉并让林灰带翻译陷入安。
仔细思索林灰话含。
首先尹芙·卡莉觉林灰应该将高维数据降低低维数据。
进语言处理果高维数据话。
分析高维数据,确实进降维。
必须进降维!
高维数据模型虽收集数据点很。
收集数据通常散布极其分散广袤高维空间。
况很统计方法难应高维数据。
“维度灾难”存原因。