jeremylive

班级

TA还未加入任何班级

课程

3万+浏览/ 1409学员/ 4.4评分

笔记

来自常用搜索引擎简介(0)

百度google 搜狗搜搜 

来自搜索引擎工作原理(0)

网络抓取,通过网络爬虫,沿着链接爬行。记录部分信息。遵循两个策略,深度,广度。网络哪些部分能被抓取,哪些不被抓取。爬虫对抓取信息进行预处理。存入文档服务器,建立倒排索引。倒排索引,以关键词和文档编号结合主建的索引结构。倒排索引中,词典最为重要,词典中保存了大量的中英词结构。就是淘宝的类目。淘宝的分词主要基于词典来分词。写标题的时候,尽量接近类目词,尽量被词典给索引到。让关键词融合词典,便于分类。    

留言

功能维护升级中,维护完成完后将再次开放,非常抱歉给您学习造成的不便。