GitHub

基于情感词典+词嵌入模型,利用CNN进行的文本情感分析

基于word2vec只考虑到了词的上下文关系,并没有考虑到所处分类和词本身的情感色彩.
本项目在基于此等考虑,引入情感词典sentiwordnet,并且对词在各类文本分布情况进行了分析. 实验结果证明了,改进是相当有效的.

1.file

#1.data 数据存放在data中,其中有data_readme.md,介绍了各种数据的由来,每个文件夹下的数据所含有的信息

#2.preprocess 预处理文件夹,大致的readme.md大致介绍了数据预处理过程,每个py文件所起的作用

#3.train 模型训练文件夹

#model 存放textCNN训练的模型,在训练后会出现

2.requirements:

nltk tensorflow-gpu json numpy pandas gensim

appendix

本项目是使用的词向量是自训练的词向量, googleNewsVector太大,解压后3个多g, 需要的同学可以发邮件给我,[email protected] 下载后存放在data/word2Vec中, 修改textCNN里面 config.word2Vecpath参数及可使用

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data		data
preprocess		preprocess
train		train
.gitattributes		.gitattributes
readme.md		readme.md
run.sh		run.sh

Provide feedback