单位文秘网 2021-07-23 08:14:26 点击: 次
信息中选择人们需要的信息,成为一个关键的问题。为帮助用户更好的获取需要的信息,本文设计在两方面提高搜索引擎性能,实现搜索引擎智能化,帮助人们更好的在信息的海洋里发现需要的信息。引入查询推荐,为用户提供与查询内容相关的查询建议,帮助用户更好的定位需要的信息。
关键词 智能搜索引擎;相关度;查询推荐;查询建议;数据挖掘
中图分类号 TP39 文献标识码 A 文章编号 1674-6708(2015)130-0129-01
0 引言
当今时代是大数据的时代,来自商业、社会、科学和工程、医学以及我们日常生活方方面面的数兆兆字节(Tera-Byte,TB)或数千兆兆字节(Peta-Byte,PB)的数据注入到互联网和各种数据存储设备中,可用数据爆炸式增长。如何在这些泛泛的信息中获取人们需要的知识迫在眉睫。搜索引擎技术正是在这样的时代背景下诞生与普及起来。经过了二十几年的发展,搜索引擎已取得瞩目的成就。如今,为更好的帮助用户搜索他们最需要的信息,减少需要内容的偏差和遗漏,搜索引擎开始向智能化发展,本文提出两个方面实现搜索引擎的智能化,即提高检索准确度与相关内容推荐。
1 相关内容查询建议
用户在使用传统搜索引擎查询时,极易出现下列情况:1、用户主要查询自己习惯关注的主题网站,但是随着设计相关主题的网站的增加,用户会错过这些新网站;2、由于用户对查询内容没有精确理解,用户不能很好的提炼关键词,并且汉语存在着丰富的同义词,某些情况下不同词语涵盖查询内容不同,造成查询结果的偏差和不全面。需要搜索引擎帮助用户通过查询到的网页继续查询与之相关的内容,包括相关主题网站和相关关键词。这就是查询建议。
1.1 相关网站推荐
以百度为例,在搜索某网站时,百度会为用户提供与该网站主题类似的网站,以供用户参考。比如输入当当网,点击百度一下,除弹出关于当当网的各类信息外,会向用户提供“猜你喜欢”的其他相关网站链接。比如:淘宝网,京东网等。搜索引擎对于网站进行主题描述,而这种描述主要是指关键词的提取。先分析样本网站,淘汰网站中的噪音,比如:广告、各类其他无关信息等,并考虑文本不同部分关键词权重(比如题目、摘要更容易产生关键词,所以增加计算这些内容中关键词的权重),对于关键词权重做计算的公式为(1)。确定关键词之后,建立网站模型。
(1)
L:模型;
:权重;
Q:关键词数量。
利用相似度的计算算法查找相关主题网站。搜索引擎会将相似度高的网站提供给用户。相似度的计算有多种,在这里基于向量空间模型的相似度计算应用最为广泛。将从文本中提取的关键词向量化,(P1,P2,P3,…Pi)。为每个关键词设置权重,即(Pi,),构成向量空间。设P=(P1,P2,P3,…Pi),P`=(P1`,P2`,P3`,…Pi`)。计算两者的相似度有多个公式包
括有:
1)向量余弦系数:
(2)
2)向量内积:
(3)
3)Dice系数:
(4)
4)Jaccard系数:
(5)
1.2 相关关键词推荐
与相关网站查询类似,当我们在搜索引擎中输入查询内容后,搜索引擎会输出与关键词相匹配的相关内容。比如百度查询“量子力学”,会输出相关人物如:埃尔温·薛定谔等。这项功能可采用关联规则挖掘技术支持。数据挖掘即从浩瀚的信息中挖掘可用的模式。目的是希望通过用户日志,统计不同用户搜索该问题时,涵盖的其他相关搜索,作为查询建议推荐给用户。关联规则挖掘技术关联规则是一种用来在规模数据中找到频繁出现的关系模式的数据挖掘技术。定义项集I={i1,i2… im},事务集D={d1,d2…dn}。对于每个B D,事务。关联规则形式为X→Y,其中X,Y是I的子集,且。规则X→Y的支持度即事务集中包含的事务所占的百分比,而规则X→Y的可信度即当X在事务中出现时,Y出现的概率,公式描述即:
(6)
(7)
给定阈值后,我们根据挖掘算法抽取高于阀值得关系规则。将这些与用户搜索内容相关联的知识提供给用户。帮助用户更好的把握所需内容。
2 结论
本文介绍了智能搜索引擎引入查询推荐功能,通过向用户提供相关网站和查询相关内容来提高用户的查
全率。
参考文献
[1]兰蔚巍,李海生.浅谈智能搜索引擎技术及其发展趋势[J].科技信息,2010(28).
(责任编辑:单位文秘网) )地址:https://www.kgf8887.com/show-240-70526-1.html
下一篇:“时事类”物理新题预测
版权声明:
本站由单位文秘网原创策划制作,欢迎订阅或转载,但请注明出处。违者必究。单位文秘网独家运营 版权所有 未经许可不得转载使用