jeremylive

jeremylive的笔记

全部笔记

来自常用搜索引擎简介(0)

百度google 搜狗搜搜 

来自搜索引擎工作原理(0)

网络抓取,通过网络爬虫,沿着链接爬行。记录部分信息。遵循两个策略,深度,广度。网络哪些部分能被抓取,哪些不被抓取。爬虫对抓取信息进行预处理。存入文档服务器,建立倒排索引。倒排索引,以关键词和文档编号结合主建的索引结构。倒排索引中,词典最为重要,词典中保存了大量的中英词结构。就是淘宝的类目。淘宝的分词主要基于词典来分词。写标题的时候,尽量接近类目词,尽量被词典给索引到。让关键词融合词典,便于分类。