旅游舆情数据清洗之脏数据的处理

中科医院 https://jbk.39.net/yiyuanfengcai/yyjs_bjzkbdfyy/

清洗数据的方式大致可分为筛选、清除、补充及纠正四种。需要清洗的数据主要分为非文本数据、无用的符号、无意义文本、长串数字或字母、停用词和变形词等几大类。

1、非文本数据

很多时候我们的分类文本都来自爬虫的爬取结果,因此文本中常常会带有HTML标签与URL地址等非文本内容。因此,需要清除这部分对分类没有什么帮助的内容。

2、去除指定无用的符号

可以使用Python包替换一些指定的字符数据,可以用在去除文本中大量重复的符号。

3、无意义文本

此外,还需要过滤掉剩余文本中的如广告内容、版权信息及个性签名的部分,毫无疑问,这些也都不应作为特征被模型学习。

4、长串数字或字母

通常情况下中文文本中长串的数字代表手机号、车牌号及用户名ID等文本内容,在非特定的文本分类情境下可以去除。或将其转换为归一化的特征,如是否出现长串数字的布尔值特征HAS_DIGITAL、按长度归一的DIGIAL_LEN_10等。值得一提的是,表情代号常常作为长串数字或字母出现,却能在情感分析中起到巨大作用。

5、去除停用词

经过上面的步骤,我们已经把所有的词进行了分类。但是这些词并不都是我们所需要的,比如句号“。”。显然,句号对意思的表达没有什么效果,还有如“是”、“的”等无意义词。这些词在所有的文章中都大量存在,并不能反应出文本的意思,可以清理掉。通常情况下,在文本中去掉这些停用词能够使模型更好地去拟合实际的语义特征,从而增加模型的泛化能力。

值得注意的是,停用词表并不是一成不变的。针对不同的文本分类情景,所采用的停用词表也应该作出针对性的调整。例如书名号“《”和“》”往往比书名本身更能代表书名的特征,冒号“:”通常出现在人物访谈类文章的标题中,人称代词“他”和“她”在情感类文章标题中频繁使用等。根据情景灵活地使用停用词表,往往能够起到意想不到的效果。

例如:标点符号:,。!/、*+-特殊符号:▲等无意义的虚词:“你”、“我”、“他们”、“想要”、“打开”、“可以”等

6、进行分词

中文文本数据,词与词之间是连续的,而我们希望数据分析的最小单位颗粒度是词语,因此,我们需要进行分词,这样就能够给下一步的工作做好准备。区别于英文天然存在空格符作为词与词之间的间隔标志,中文文本中词的提取必须通过基于序列预测等方法的分词技术来实现。在提取了特征值之后,再采用One-hot或TF-IDF等方法将每个样本转化为固定长度的特征编码作为分类算法的输入。

7、变形词识别和替换

变形词问题除了能让我们感叹中文博大精深之外,也时时刻刻困扰文本分类工作者,极大地增加了广告识别及涉黄涉政等特殊文本分类场景下的分类难度。对中文词的变形通常采用的方法有特殊符号替换、同音近型替换及简繁替换等。要做到变形词的识别和替换,除了建立常见变形词的映射表以外,还可以尝试用拼音首字母的方法来鉴别同音替换的变形词。以及用Word2vec词向量来对比变形词与上下文的语意关联度,从而识别出该词是否经过了变形。以海鳗云旅游大数据教学实训平台为例,选择数据并进行清洗:

经过以上讲解,相信大家对“脏数据”的类型有了一定了解,接下来,我们就可以着手做数据清洗工作了。



转载请注明地址:http://www.haimane.com/hmtz/12174.html
  • 上一篇文章:
  • 下一篇文章: