名校公开课 加入小组

965个成员 2994个话题 创建时间:2011-10-19

西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用

发表于 2017-03-28 3593 次查看

西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用

3月8日,西南科技大学教授张晖在CIO时代APP微讲座栏目作了题为《大数据和人工智能在高校舆情处理中的应用》,详细介绍了舆情处理方面所利用的技术。

西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用

目前,计算机已非常普及。据统计,西南科技大学70%的学生每天上网的时间达到2-5个小时,30%的学生的上网时间达到5个小时以上。在这种情况下舆情一旦发生并快速传播,将会对学校造成无法挽回的损失。

西南科技大学在舆情管理方面有三支队伍:第一,党委宣传部中有一个网络管理科,负责网络舆情的内容审查,以及学校官方微博、微信的维护;团委中有一个队伍,当发现舆情后,进行正面宣传;还有就是自行开发的信息化系统,负责网络舆情的自动发现及学校舆情的自动监控。

一、舆情系统架构

系统的架构大概分为三个部分:

  • 1.系统逻辑结构

西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用

第一,数据采集层。采集的数据对象有新闻、网页信息、BBS信息及微博信息等,采集信息使用了网络爬虫技术,将信息采集后放在服务器上。由于所采集的网站多、信息量大,我们使用了分布式爬虫技术与大数据的技术,通过一个刀片服务器里的十个服务器同时进行采集,采集后放到学校的大型存储之上。对存储的数据进行数据清洗和抽取后,存入舆情数据库,再进行多维数据分析、情感分析、热点分析等分析工作,分析后的数据将形成舆情报告,并发送到微信上,为宣传部的工作提供指导。

  • 2.系统业务结构

西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用

在基础架构上,主要使用了以下几种平台:第一,大数据技术平台。上述提到的分布式爬虫技术综合应用了redis和mongodb进行数据存储,redis快速将爬虫爬到的数据进行预处理,处理好后的数据存入到mongodb中。中间的一层是基于统计机器学习和复杂网络理论的舆情处理层,主要的技术是话题的演化(对已经发生话题、如何发展、正面的话题、负面的话题信息进行分析),分析后的数据在一段时间后需形成摘要,如一周的舆情摘报,传给宣传部整理后发送给相关部门,在此过程中也需要个性化推荐技术。对外发布基于SaaS的云服务,在服务器上发布后,其他高校的宣传部无需安装服务器,只需一个账号即可直接看到其舆情信息。

  • 3.分布式网络数据采集

目前的分布式爬虫技术已做到近200个网站的实时监测,通过基于大数据的分布式采集,其响应时间为3~5分钟,如果网页上有变化,3~5分钟便可察觉,每天的信息增量为8000~10000条。除爬虫之外,为方便了解其他搜索引擎所用到的一些搜索结果,也使用了元素引擎,将学校的主题发送到百度等搜索引擎中,将搜索出的结果与自己爬虫搜索的结果进行组合使用。

舆情系统的功能及核心技术便是分层的处理结构。在信息获取到后,关键在于舆情分析,具体分为三层:最简单的浅层便是用户所设定的关键词,如学校、学院、校领导的名字等浅层信息,以及与这些浅层信息相似的本体组合到一起。接着在关键词和本体上计算与主题的相关性,具体是以主题模型来实现,将一周的舆情做一个文本摘要提供给宣传部使用。通过这些摘要可以发现学校的活跃话题,以及发现关于舆情的发展,是否会形成某一个话题,是否最终会变为一个舆情。然后需要对舆情的舆情正负面进行分析。

西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用

这是早期实现的系统4.0,其中未应用到大数据处理技术,但用了人工智能技术,当时的爬虫是基于单机做的一个效果。

西南科技大学张晖谈大数据和人工智能在高校舆情处理中的应用

这是目前做的系统5.0,其中应用了大数据处理技术,已达到比较好的性能,满足了学校对于舆情处理的需要。

二、舆情系统的特点

爬虫7×24小时不停监测与学校相关的信息,响应速度能达到3~5分钟。

97%以上的信息抽取准确率,提高舆情发现的精度。

基于机器学习的自然语言处理,深入分析舆情倾向、热点、趋势等信息。

多维度统计分析,深入理解舆情的传播过程。

整合高校微信公众平台,让相关工作人员及时掌握舆情动态。

采用云计算模式,监测信息及时,节约用户开支。

1回复
  • 2楼 nihaoshijieyaa 2019-10-30

    http://www.emangene.com/dna/814.html
    http://www.emangene.com/dna/813.html
    http://www.emangene.com/dna/811.html
    http://www.emangene.com/dna/810.html

发表回复
功能维护升级中,维护完成完后将再次开放,非常抱歉给您学习造成的不便。