ppt 2022年安全生产十五条措施PPT 编号15 ㊣ 精品文档 值得下载

🔯 格式:PPT | ❒ 页数:23 页 | ⭐收藏:0人 | ✔ 可以修改 | @ 版权投诉 | ❤️ 我的浏览 | 上传时间:2022-06-24 19:43

2022年安全生产十五条措施PPT 编号15

改进后的对于分词后的每个词的权重,更加准确。的改进在微博的的改进当中我们加入了微博的特点标签对应的标题微博流行度词性词长就是在发微博的时候,两个号之间的文字,般代表主体,预处理时我们把微博数据当中的提取出来,然后判断普通文本中每个词去除和微博数据在标签中是否出现,般我们认为条微博当中的个词在中出现,那么这个词应给很高的权重。因为微博中的这个词有可能代表着本条微博的主题。对应的标题微博因为限制字而导致比较流行,我们可以提取出所对应的标题,判断普通文本中每个词去除和微博数据在对应的主题中是否出现,我们认为条微博中的个词在对应的标题中出现,我们认为这个词应该给与更高的权重。引入很多的微博独特的特点加入到的改进算法当中其中包括标签所对应的主题,词长个词的长度通常包含信息量不同,词越长那么包含的信息量就越大,词越短包含的信息量就越小。词长权重公式如下其中表示词的长度,表示词长的权重,加主要是是为避免出现负数或添加的平滑因子。改进的,,其中每个个人微博中包含条微博,而每条微博中包含个预处理后的词表示词频表示词在本条微博中出现的次数表示分词后词在微博标签中出现的次数表示分词后词在微博中的所对应的标题中出现的次数表示分词后的词在微博除标签和对应标题外的文本中出现的次数,分别为词在标签中和词在链接中出现词汇的加权值。的改进如果个词只出现在条微博当中那么这个词的会很高,传统的会把这个词当做权重高的主题词,但是在微博当中个词只出现在条微博当中,那么我们很可能不会把他当成关键词而是把些分布在各个微博当中的词当成主题词来提取,因为这样的词更具有关键词的特点。所以我们引入信息熵的概念定义给定概率分布为,则有该分布传递的信息量成为的熵,即定义若个个人用户发了条微博每条微博当中包含词的概率分布为其中表示词在所有微博中出现的次数,表示词在每条微博中出现的次数。我们把作为词在整个微博中的分布熵。越大则表示词在每个微博当中分布越均匀,那么这个词成为关键词的概率就越大,越小那么词在不同微博中分布中出现的次数不均匀,综合上述公式可知的改进算法为改进后的更加适应主题词概念的定义,对提取主题词包括相似度的计算提高了精确程度。同样是集中分布于所有微博的不同特征项,微博分布相对均匀的特征项的权重应该比分布不均匀的要高因为如果特征项只在微博的两条微博中大量出现,而在其他微博出现得很少,那么不排除这两条微博是该类别中特例的情况,因此这样的特征项不具备代表性,权重相应较低对此,传统的算法也字进行余弦相似度的计算,计算公式如下,流行相似度时序相似度两条微博发表的时间也是决定微博是否相似的个重要特点,计算公式如下若若我们设置个阈值,假如发的两条微博的时间差在阈值内,由公式可知,时间差距越小那么时序相似度就越大,反之亦然。如果两条微博的事件差大于阈值,那么我们认为这两条微博不相似,所以相似度设置为。例如微博年热火队夺冠,微博年热火队夺冠,虽然两条微博的文本相似度很高,但是时间差距太大,那么我们在事件聚类的时候不会把这两条微博聚在起。流行相似度条微博的转发,评论,赞数直接影响着这条微博在所有微博中的影响力的大小流行度计算公式如下其中表示微博被评论的数量,表示个人发的所有微博中评论数的最大值,是个加权值其中表示微博被赞的数量,表示个人发的所有微博中赞数最大值,是个加权值其中表示微博被转发的数量,表示个人发的所有微博中转发数的最大值,是个加权值两条微博的综合相似度对以上的五个特点进行加权得到公式如下,定义个人微博中个词满足如下标准的时候,被定义为个主题词这个主题词的文档频率必须大于段时间内设定的个阈值在段时间内,主题词出现在哈希标签中的概率大于个阈值这个主题词的熵必须小于当天所有其他词熵的均值,因为熵越小,表明这个词在不同时间段内出现次数差异越大,所以更具热门词的特征,熵越大,在平均的段时间内出现次数越平衡词的长度越长,那么词还有的信息量就越大,就越有可能成为主题词个人微博中个词满足如下标准的时候,被定义为这条微博的主题词这个主题词的值必须大于影响微博的因素有标签微博中两个之间的内容文本中的词是否出现在标签中,直接影响着的值对应的主题文本中的词在所对应的标题中出现的次数影响微博中提取关键词的因子般的都是根据文本这两项来改进的,没有考虑到文本的般特性,而微博却不同,微博有很多个制约的因子例基于个人微博特征的改进算法高永兵陈超熊振华韩翼内蒙古科技大学信息工程学院内蒙古包头摘要个人微博在提取关键字和事件提取上,每个词的起到了很重要的作用,针对传统的不适应微博这个新型事物的缺点外加上传统的不能针对微博独特的特点,对进行了深入的分析,本文结合微博的特点和信息熵的概念提出了种新的的改进算法,通过实验,找出影响微博中词的各种因素和因子。实验结果表明,改进后的算法对微博关键字和事件提取有明显的提高。关键词微博数据预处理去除个人微博中相同的微博提取出微博中的标签微博中般在博文的开头,两个号之间的词语或者句子提取出微博中含有链接所对应的标题因为微博的特征是最多字这里以新浪微博为主,所以链接所对应的标题很大程度上能突出微博的主题找出每条微博的评论转发赞的个数评论转发赞越多,我们认为这条微博关注的人数比较多,我们认为这条微博很重要,应给微博中的关键词给予更大的权重去除微博中的停用词表情特殊符号和分词后只有个字的词停用词表情特殊符号和分词后只有个字的词,我们认为这样的词对于整条微博的价值是很低的,去除这些词,同时也降低了噪声分词采用中科院汉语词法分析系统,分词分词后得到每个词的词性,般我们会给名词,动词的权重比较高同样是集中分布于所有微博的不同特征项,微博分布相对均匀的特征项的权重应该比分布不均匀的要高因为如果特征项只在微博的两条微博中大量出现,而在其他微博出现得很少,那么不排除这两条微博是该类别中特例的情况,因此这样的特征项不具备代表性,权重相应较低对此,传统的算法也不能很好地处理文本相似度标签相似度对应的标题的相似度时间相似度两条微博的综合相似度基于个人微博特点的事件提取研究摘要个人微博在关键字提取和事件提取上,本文通过微博的独特的特点提出了种综合相似度的计算,改算法针对微博的特点进行的改进,并加入标签相似度,流行相似度,时序相似度,相似度,进行综合相似度计算,实验结果证明,改进的算法比原始的算法有明显提高,改进的综合相似度计算比传统的相似度计算有很大的提高。摘要个人微博在关键字提取和事件提取上,每个词的起到了很重要的作用,针对传统的不适应微博这个新型事物的缺点,对进行了深入的分析,本文结合微博的特点和词在每条微博中的分布熵的概念,提出了种新的基于微博特点的改进算法和综合相似度的计算方法,通过实验,找出影响微博中词权重的各种因素和因子。实验结果表明,改进后的算法和综合相似度算法对微博关键字提取和事件提取有明显的提高。个人微博在事件提取上大多都是运用文本进行相似度计算最终达到聚类结果,而没有充分的考虑到微博特点,而本文充分的利用了微博标签转发评论赞数时间的特点,提出了种综合相似度的计算方法,该算法针对微博的特点进行的改进,并加入标签相似度,流行相似度,时序相似度,相似度,进行综合相似度计算。实验结果表明,基于微博特点的综合相似度算法对微博关键字提取和事件提取有明显的提高。微博数据改进提取关键字相似度计算聚类提取事件预处理提取关键字相似度计算标签关键字文本关键字关键字相似度文本相似度流行相似度标签相似度本文主要分为以下几点微博数据预处理改进提取关键字相似度计算聚类提取事件预处理阶段预处理去除个人微博中相同的微博提取出微博中的标签微博中般在博文的开头,两个号之间的词语或者句子提取出微博中含有链接所对应的标题因为微博的特征是最多字这里以新浪微博为主,所以链接所对应的标题很大程度上能突出微博的主题找出每条微博的评论转发赞的个数评论转发赞越多,我们认为这条微博关注的人数比较多,我们认为这条微博很重要,应给微博中的关键词给予更大的权重去除微博中的停用词表情特殊符号和分词后只有个字的词停用词表情特殊符号和分词后只有个字的词,我们认为这样的词对于整条微博的价值是很低的,去除这些词,同时也降低了噪声分词采用中科院汉语词法分析系统,分词分词后得到每个词的词性,般我们会给名词,动词的权重比较高改进的算法改进的传统的用在微博当中有以下缺点传统的没有考虑到微博的独特特点,没有将微博的特点加入进来传统的是针对长文本的,运用在噪音大的短文本中会大打折扣如果个词只出现在条微博当中那么这个词的会很高,传统的会把这个词当做权重高的主题词,但是在微博当中个词只出现在条微博当中,那么我们很可能不会把他当成关键词而是把些分布在各个微博当中的词当成主题词来提取。影响微博中提取关键词的因子般的都是根据文本这两项来改进的,没有考虑到文本的般特性,而微博却不同,微博有很多个制约的因子例如标签,对应的主题,词场,词频信息,词性,每条微博的流行程度。本文通过把微博的些独特的特征和特点加入到中进行综合改进他,通过测试改进后的对于分词后的每个词的权重,更加准确。的改进在微博的的改进当中我们加入了微博的特点标签对应的标题微博流行度词性词长就是在发微博的时候,两个号之间的文字,般代表主体,预处理时我们把微博数据当中的提取出来,然后判断普通文本中每个词去除和微博数据在标签中是否出现,般我们认为条微博当中的个词在中出现,那么这个词应给很高的权重。因为微博中的这个词有可能代表着本条微博的主题。对应的标题微博因为限制字而导致比较流行,我们可以提取出所对应的标题,判断普通文本中每个词去除和微博数据在对应的主题中是否出现,我们认为条微博中的个词在对应的标题中出现,我们认为这个词应该给与更高的权重。引入很多的微博独特的特点加入到的改进算法当中其中包括标签所对应的主题,词长个词的长度通常包含信息量不同,词越长那么包含的信息量就越大,词越短包含的信息量就越小。词长权重公式如下

下一篇
2022年安全生产十五条措施PPT 编号15第1页
1 页 / 共 23
2022年安全生产十五条措施PPT 编号15第2页
2 页 / 共 23
2022年安全生产十五条措施PPT 编号15第3页
3 页 / 共 23
2022年安全生产十五条措施PPT 编号15第4页
4 页 / 共 23
2022年安全生产十五条措施PPT 编号15第5页
5 页 / 共 23
2022年安全生产十五条措施PPT 编号15第6页
6 页 / 共 23
2022年安全生产十五条措施PPT 编号15第7页
7 页 / 共 23
2022年安全生产十五条措施PPT 编号15第8页
8 页 / 共 23
2022年安全生产十五条措施PPT 编号15第9页
9 页 / 共 23
2022年安全生产十五条措施PPT 编号15第10页
10 页 / 共 23
2022年安全生产十五条措施PPT 编号15第11页
11 页 / 共 23
2022年安全生产十五条措施PPT 编号15第12页
12 页 / 共 23
2022年安全生产十五条措施PPT 编号15第13页
13 页 / 共 23
2022年安全生产十五条措施PPT 编号15第14页
14 页 / 共 23
2022年安全生产十五条措施PPT 编号15第15页
15 页 / 共 23
温馨提示

1、该PPT不包含附件(如视频、讲稿),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读。

2、有的文档阅读时显示本站(www.woc88.com)水印的,下载后是没有本站水印的(仅在线阅读显示),请放心下载。

3、除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑、修改、打印。

4、有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载。

5、该文档为会员上传,下载所得收益全部归上传者所有,若您对文档版权有异议,可联系客服认领,既往收入全部归您。

  • Hi,我是你的文档小助手!
    你可以按格式查找相似内容哟
DOC PPT RAR 精品 全部
小贴士:
  • 🔯 当前文档为PPT文档,建议你点击PPT查看当前文档的相似文档。
  • ⭐ 查询的内容是以当前文档的标题进行精准匹配找到的结果,如果你对结果不满意,可以在顶部的搜索输入框输入关健词进行。
帮帮文库
换一批