搜索引擎与算法分析课程
分类:优化课程 热度:

一、搜索引擎原理介绍
1、搜索引擎技术发展史
2、搜索引擎爬虫
3、搜索引擎索引系统
4、搜索引擎分词
5、索引压缩
6、链接分析
7、搜索引擎反作弊
8、用户意图分析
9、搜索引擎缓存系统
10、SEO与数据分析
二、搜索引擎技术发展史
分类目录:导航时代,例如yahoo、hao123,扩展性不强
文本检索:采用经典的信息检索模型,例如布尔模型、向量空间模型、概率模型,并未使用网页间的链接关系
链接分析:充分利用了网页之间的链接关系(推荐),例如谷歌PR,但并未考虑用户的个性化要求,只要输入的查询词相同,所有用户都会得到相同的搜索结果。
用户中心:目前的搜索引擎,大都可以归入这一代,即以理解用户需求为中心,例如对于不同的用户来说,输入“苹果”作为查询词,想搜索得到的内容可能完全不一样,如何能够理解用户发出的某个很短小的查询词背后包含的真正需求,是现代搜索引擎致力于要解决的问题,例如利用用户发送查询时的时间、地理位置,以及利用用户过去发出过的查询词及相应的点击记录等技术手段,来试图理解用户此时此地的真正需求
 
三、搜索引擎的三个目标
更全:是从网页的索引数量而言的,可以通过提高网络爬虫相关技术来达到此目标
更快:这个目标贯穿于搜索引擎的大多技术方向,比如索引相关技术、缓存技术等,都是为了提高响应时间
更准:这个目标最重要,即如何得到“更准”的搜索结果,无论是排序、链接分析、或者是用户搜索点击行为研究等,都是为了使搜索结果更加的准确
总之,对于一个搜索引擎来说,达到“更全”与“更准”使其不落后于同类产品,但如何能够做到“更准”,则能够构建其核心竞争力,提高用户体验。
 
四、爬虫的三种类型
批量型爬虫:批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程,至于具体目标各异,例如设定抓取一定的网页数量、设定抓取消耗的时间等。
增量型爬虫:会保持不断的抓取,对于抓取到的网页,要定期的更新,新增网页、网页被删除或者网页内容更新都很常见,增量型爬虫需要及时反映这种变化,所以处于不断的抓取过程中,它不是在抓取新网页,就是在更新已有的网页
垂直型爬虫:只关注特定主题内容或者属于特定行业的网页,比如对于健康网站来说,只需要从互联网页面里找到与健康相关的页面内容即可,其他行业的内容不在考虑范围

五、优秀爬虫的特性
高性能:主要指爬虫下载网页的抓取速度,以爬虫每秒能够下载的网页数量作为性能指标,要提高爬虫的性能,在设计时程序访问磁盘的操作方法及具体实现时数据结构的选择很关键
可扩展性:即很容易通过增加抓取服务器和爬虫数量来达到尽量缩短抓取周期,现代的搜索引擎爬虫是分布式的,很多台抓取服务器,每个服务器部署多个爬虫,每个爬虫多线程增加并发性,还有地域数据中心
健壮性:爬虫在抓取时,会遇到各种各样的服务器、各种网页编码、抓取时突然死机、爬虫陷阱等,必须有足够的健壮性来正确处理这些问题
友好性:一方面包括保护网站的部分私密性,另一方面是减少被抓取网站的网络负载。例如robots、nofollow

六、网页更新策略
历史参考策略:过去频繁更新的网页,那么将来也会频繁更新,所以为了预估某个网页何时进行更新,可以通过参考其历史更新情况来做出决定,往往自用泊松过程来对网页的变化进行建模,根据网页过去的更新情况,利用模型来预测将来何时会再次发生变化
用户体验策略:用户往往只看搜索结果前几页的内容,所以对于排名靠后的网页,更新可以不用那么频繁,因为几乎不影响用户体验,判断一个页面何时更新,取决于这个网页的内容变化带来搜索质量的变化,影响越大的网页,则应该越快更新
聚类抽样策略:同一类别的网页更新周期差不多,先将网页进行分类,然后从这个类别中选出最具代表性的网页,计算其更新周期,那么这个更新周期适用于这个类别内的所有网页

上一篇:没有了 下一篇:SEO与数据分析课程
猜你喜欢
各种观点
热门排行
精彩图文