海鳗云和大家一起学习了旅游舆情的定义、旅游舆情的参与者以及旅游舆情的认知体系等,相信大家对旅游舆情已经有了系统的认识。本周,我们将围绕互联网文本数据的来源和获取技术,来详细了解下旅游舆情数据的采集。
对于旅游舆情,我们首先需要获取到各个网站上的相关数据,然后对原始文本进行清洗,最后对清洗后的数据进行特征提取,挖掘出每篇文章的重要信息,方便之后的舆情分析挖掘。
一般来讲,互联网上的公开内容,存在于互联网的媒介网站中,即互联网普通用户从传播受体的角度可以直接读取到的内容。从存在形态上讲,互联网内容数据可以分为以下几种类型:
一、明确旅游舆情来源
旅游舆情监测的前提是明确数据来源,旅游舆情的数据来源主要包括以下几个方面:
1、政府网站
政府网站的第一类为国务院、省、地、市及县的政府官方网站,网站域名一般均以.gov结尾。政府网站的第二类为涉旅政府职能部门网站,包括中央、省、地市及县的文旅部体系与发改委体系等各级网站。
2、新闻资讯
新闻资讯指传播类的专业媒体。主要分为中央官方媒体,如新华网与人民网等;地方官方媒体,如天津日报与河南日报;商业媒体,如新浪网、凤凰网、腾讯新闻及今日头条等。新闻资讯是舆情的重要载体,在舆情过程中的作用至关重要,因其专业属性,一般态度相对自媒体较为克制和客观。
3、微博
微博的模式源自美国的Twitter,是典型的互联网自媒体。微博早期有不同的品牌,如腾讯微博、网易微博及新浪微博等。而发展至今,新浪微博是公认的老大,其他微博或关闭或运营惨淡。因此,旅游舆情监测在舆情的数据源上特指新浪微博。
4、