敏捷冲刺五
Task1:团队TSP
搜索引擎相关内容了解 | 300 | 500 | 11-5 |
数据库表的创建 | 180 | 150 | 11-5 |
学院网站的爬取 | 210 | 460 | 11-10 |
建立数据库索引 | 190 | 230 | 11-12 |
代码测试 | 180 | -- | -- |
前端页面的设计 | 240 | -- | -- |
前后端的交互 | 300 | -- | -- |
搜索引擎测试 | 260 | -- | -- |
Task2:描述项目进展
秦玉(组长) | 与队员一起继续编写代码突破难关,补全之前的博客欠缺的地方 | 180 |
陈晓菲 | 与队员一起继续编写代码突破难关,补全之前的博客欠缺的地方 | 180 |
韩烨 | 前端模板的设计,补全之前的博客欠缺的地方 | 180 |
姚雯婷 | 分析学院页面结构,并且编写爬虫代码,能爬取页面后开始写分词器 | 180 |
罗佳 | 完成团队TSP表格,完成第五次冲刺博客园,配置完环境跟上进度 | 180 |
高天 | 完成需要在课堂上展示的ppt,继续编写代码突破难关 | 180 |
Task3:目前面临的困难
- 最开始爬取到的页面只有十几条,肯定不对啊,然后仔细检查代码,查看学院网页的头,发现其实学院网页的头不是每个都是/info开头的,有些是content,所以我们删去了/info
if url.startswith("http://cec.jmu.edu.cn/info"): yield Request(url,callback=self.parse_content)
- 仔细比对学院网站源码后发现,只能爬取红色标题网页的原因是学院网站网页格式不统一,在解析网页时需要在多加一些或判断。我们打开学校网站的链接,一个一个的看标题,发现红字的是加了span标签的内容,取掉span之后就能爬取黑色标题的内容,但是红色标题的网页名会是空
#item_loader.add_xpath("title", "//td[@class='titlestyle124904']/span/text()")
- 当我们同时用这两句抓取的时候就可以同时抓到红黑两种,但是我们觉得抓取还是一次就好,不然强行增加运行时间,所以我们查了下xpath的语法,发现用 | 就可以同时爬取红黑标题的内容了,最后发现其实我们学院只有43条页面,其他的都连接到教务处或者科研中心,网页的格式就不一样了。
- 利用elassticsearch搭建搜索引擎,目前还在编写中。IKanalyzer、ansj_seg、jcseg三种中文分词器,了解了各种分词器的功能,最终我们选择了标准分词器 IKanalyzer,发现如果直接使用elassticsearch在处理中文内容的搜索时遇到很尴尬的问题——中文词语被分成了一个一个的汉字,发现原来这是因为使用了Elasticsearch中默认的标准分词器,这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字,因此引入es之中文的分词器插件es-ik就能解决这个问题。
Task4:项目燃尽图
Task5:提交历史截图
Task6:站立式会议照片