首页 > 都市言情 > 穿越:2014 > 第303章 另类的学术风格

第303章 另类的学术风格(2/2)

目录
好书推荐: 出名后太烦啦 从香江开始崛起 奶爸搬运工 诸天:从射雕开始 游戏诸天之旅 长生从锦衣卫开始 美人玻璃心 姬唐 非凡女友 蔓蔓仙途

那就是林灰总是致力于赢在起跑线上。

当然赢在起跑线上只是比喻说法,确切地表述应该是

——在解决学术问题以及实际上的工程问题的时候林灰很倾向于将可能出现的问题扼杀在萌芽状态。

得出这一判断,尹芙·卡莉自然有相应的依据。

就拿前不久林灰在论文补充内容中所提到的预训练来说吧。

此前涉及到“训练”的时候人们往往想到是对训练生成的模型由机器学习方面的专家进行调整。

很少有像林灰这样的对训练过程就有想法的。

毕竟涉及到语料训练这个门类的研究在一个语言模型构建正常的步骤中已经是属于很靠前的步骤了。

这个例子已经很能说明尹芙·卡莉的判断了。

除了这个例子之外,还有此次来到中国和林灰的第一次谈话。

当时两人聊到了对“语料向量化之后再处理可能导致的维度爆炸”相关问题的处理时。

原本尹芙·卡莉设想的降维做法有将高维模型转化为低维模型、将分析后得到的高维数据降低成低维数据等等。

而林灰提出的思路却是将语料向量化之后得到原始高维向量数据直接进行降维处理。

要知道在此前涉及到维度爆炸这件事几乎没啥研究者想到直接对维度本就比较高的原始数据做文章。

毕竟这涉及到将语料信息抽象成向量原始数据已经差不多其对应研究中特别靠前的一个环节了。

尹芙·卡莉觉得这些都可以左证她先前的判断。

依据她先前的判断的话,还可以在此基础上进一步推断。

如果一个科研项目涉及到多个环节,每个环节都有可施为的空间。

那林灰一定会在最初的环节下主要功夫或者是最初环节还要之前的地方开辟新的赛道。

知道这个有什么用呢?

当然有用,甚至是有大用。

此前尹芙·卡莉对林灰为什么要收购她搞出的那项专利即《文本判断甄别比较的一种新方法》这个专利是很不明所以的。

在林灰提出了生成式文本摘要算法之后。

现在的自动文摘实现方法主要分为抽取式方法和生成式方法:

这两种摘要方法有很多原理和实际效能的区别。

但此二者本质上都是自动文本摘要。

举凡是自动文本摘要,其技术框架就都可以概括为:

内容表示→权重计算→内容选择→内容组织。

内容表示是将原始文本划分为文本单元的过程,主要是分字、词、句等预处理工作;

内容表示的主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。

权重计算则是要对文本单元(即预处理后原始文本)计算相应的权重评分,权重的计算方式多样,如基于特征评分、序列标注、分类模型等提取内容特征计算权重。

这个步骤的目的是通过这一系列计算完成对预处理后的原始文本实现初步分析。

内容选择是对经过计算权重后的文本单元(即经过步骤Ⅱ权重分析过的文本)选择相应的文本单元子集组成摘要候选集,可根据要求的摘要长度、线性规划、次模函数、启发式算法等选择文本单元;

内容组织是指对候选集的内容进行整理形成最终摘要,可根据字数要求按顺序输出,也有研究者提出使用基于语义信息、模板和神经网路学习的方法来产生符合要求的摘要。

从技术框架的这几个层次的对应描述来看,可以看出无论是权重计算还是内容选择抑或是内容组织此三者都是很重要的。

目录
新书推荐: 七零:娇艳美人嫁冷硬军官一胎双宝 和离后她飒爆边关,父子双双火葬场! 换嫁纨绔做皇后,负心渣男哭晕了 入局,对她上瘾 一提离婚你就跪,早干嘛去了 重生七零,掏空渣爹资产转身下乡 离婚前,弹幕都说阴湿老公暗恋我十年? 王爷每日一跪,王妃今天原谅了吗 夫君假死?预知未来后我不守寡了! 回春朝:这该死的妇道守不住了
返回顶部