GitHub - T-ze-yu/Graph-based-data-classification: 图谱形式的数据分类分级

图谱形式的数据分类分级

每个行业都有自己的一些数据分类分级标准，而将自己的数据资产按这个标准进行分类管理，往往工作量极为巨大，而本项目借助知识图谱和nlp的一些手段尽量去简化和自动化的进行数据的归类与管理，大概思路如下：

1、通过行业的数据分类分级标准，结合实际数据制定分类标准图谱，如下：

2、通过扫描数据资产，构建数据资产图谱，如下：

3、通过nlp的一些算法将两个图谱进行关联，从而达到分类分级的目的。

主要的一些脚本的功能如下：

datas：存放了一些数据

gldata_fx：数据的一些分析处理脚本（分词、聚类等）

match_res：词义匹配的相似度等结果

config文件：词义匹配的字典、图数据库连接信息、分类标准和资产信息的存放路径

graph.py：通过js文件字典去构建图谱，内部实现了从不同逻辑结构去搭建图谱的方法

kwpb.py：词义匹配的主要核心代码

mc_fx.py：分词和词汇翻译的一些方法

neo4j.py：图数据库neo4j数据查询的一些方法

main.py：导入分类标准图谱、数据资产信息图谱、进行自动关联

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
datas		datas
gldata_fx		gldata_fx
read_img		read_img
Bert_cla.py		Bert_cla.py
README.md		README.md
app.py		app.py
config.py		config.py
config_1.py		config_1.py
config_2.py		config_2.py
db_connet.py		db_connet.py
fild_sb.ipynb		fild_sb.ipynb
graph.py		graph.py
kwpb.py		kwpb.py
main.py		main.py
mc_fx.py		mc_fx.py
neo4j.py		neo4j.py
requirements.txt		requirements.txt
tt.ipynb		tt.ipynb
tt2.ipynb		tt2.ipynb