淘宝词典,词典即类目,可见统计分词法,比例不大倒排索引,即信息检索模型ir相似度,即相关性
网络抓取,通过网络爬虫,沿着链接爬行。
记录部分信息。
遵循两个策略,深度,广度。
网络哪些部分能被抓取,哪些不被抓取。
爬虫对抓取信息进行预处理。存入文档服务器,建立倒排索引。
倒排索引,以关键词和文档编号结合主建的索引结构。
倒排索引中,词典最为重要,词典中保存了大量的中英词结构。就是淘宝的类目。淘宝的分词主要基于词典来分词。
写标题的时候,尽量接近类目词,尽量被词典给索引到。让关键词融合词典,便于分类。
学员评论
shannyc2016-11-18
Elaine_892016-05-18
bettyyan2013-03-23
鱼非非2012-12-01
你感兴趣的课程
扫一扫 关注好知微信