Skip to content

feilanlong/knowledge-graph

Repository files navigation

[TOC]


一、项目展示

1655310513405

1655311097893

二、开发环境说明

  1. VS Code
  2. Python 3.9
  • 主要用的的Python第三方库

  • torch=1.11.0

  • ltp==4.1.5.post2

  • py2neo=2021.2.3

  • requests=2.27.1

  1. JAVA 11
  2. neo4j-community-4.4.7
  3. Ubuntu 20.04
  4. Docker Engine - Community 20.10.17
  5. moba xterm

三、使用步骤

1.使用爬虫爬取百度百科

代码如下(示例):

python main.py 
please input keyword: 赫哲族
抓取网址http://baike.baidu.com/item/赫哲族
[('\n', '赫哲族是中国东北地区一个历史悠久的少数民族,民族语言为赫哲语,属阿尔泰语系满-通古斯语族满语支(也有观点认为应归入那乃次语支),没有本民族的文字,使用西里尔字母来记录语言,因长期与汉族交错<a target=_blank href="/item/%E6%9D%82%E5%B1%85/205289" data-lemmaid="205289">杂居</a>,通用汉语。</div><div class="para" label-module="para">由于居住地域广阔,赫哲人的自称较多,如“那贝”、“那乃”、“那尼傲”,“赫哲”作为族称最早出现于康熙二年(1663)三月,1934年凌纯声《松花江下游的赫哲族》一书出版后,“赫哲”作为族称开始广泛传播。</div><div class="para" label-module="para">赫哲族主要分布于黑龙江、松花江、乌苏里江交汇构成的三江平原和完达山余脉,集中居住于三乡两村,即同江市街津口赫哲族乡、八岔赫哲族乡、双鸭山市饶河县四排赫哲族乡和佳木斯市敖其镇敖其赫哲族村、抚远县抓吉镇抓吉赫哲族村。根据《<a target=_blank href="/item/%E4%B8%AD%E5%9B%BD%E7%BB%9F%E8%AE%A1%E5%B9%B4%E9%89%B4-2021/59212694" data-lemmaid="59212694">中国统计年鉴-2021</a>》,中国境内赫哲族的人口数为5373人。<sup class="sup--normal" data-sup="1-2" data-ctrmap=":1,:2,:6,">\n[1-2]</sup><a class="sup-anchor" name="ref_[1-2]_4420">&nbsp;</a>\n<sup class="sup--normal" data-sup="6" data-ctrmap=":1,:2,:6,">\n[6]</sup><a class="sup-anchor" name="ref_[6]_4420">&nbsp;</a>\n')]

赫哲族是中国东北地区一个历史悠久的少数民族民族语言为赫哲语属阿尔泰语系满-通古斯语族满语支也有观点认为应归入那乃次语支),没有本民族的文字使用西里尔字母来记录语言因长期与汉族交错杂居通用汉语由于居住地域广阔赫哲人的自称较多那贝”、“那乃”、“那尼傲”,“赫哲作为族称最早出现于康熙二年1663三月1934年凌纯声松花江下游的赫哲族一书出版后,“赫哲作为族称开始广泛传播赫哲族主要分布于黑龙江松花江乌苏里江交汇构成的三江平原和完达山余脉集中居住于三乡两村即同江市街津口赫哲族乡八岔赫哲族乡双鸭山市饶河县四排赫哲族乡和佳木斯市敖其镇敖其赫哲族村抚远县抓吉镇抓吉赫哲族村根据中国统计年鉴-2021》,中国境内赫哲族的人口数为5373人。[1-2][6]
爬取数据保存成功下面开始生成三元组结构化数据
[('赫哲族', '是', '中国东北地区一个历史悠久的少数民族'), ('民族语言', '为', '赫哲语'), ('观点', '认为', '应归入那乃次语支')]
[('“赫哲”', '开始', '广泛传播')]
[('赫哲族', '分布于', '黑龙江、松花江、乌苏里江交汇构成的三江平原和完达山余脉'), ('赫哲族', '居住', '于三乡两村')]
[('中国境内赫哲族的人口数', '为', '5373人')]
[]
{'郝哲族': ['赫哲族', '民族语言', '观点', '“赫哲”', '赫哲族', '赫哲族', '中国境内赫哲族的人口数'], '描述': ['是', '为', '认为', '开始', '分布于', '居住', '为'], '关系': ['中国东北地区一个历史悠久的少数民族', '赫哲语', '应归入那乃次语支', '广泛传播', '黑龙江、松花江、乌苏里江交汇构成的三江平原和完达山余脉', '于三乡两村', '5373人']}
           郝哲族   描述                           关系
0          赫哲族                中国东北地区一个历史悠久的少数民族
1         民族语言                              赫哲语
2           观点   认为                     应归入那乃次语支
3赫哲开始                         广泛传播
4          赫哲族  分布于  黑龙江松花江乌苏里江交汇构成的三江平原和完达山余脉
5          赫哲族   居住                        于三乡两村
6  中国境内赫哲族的人口数                            5373
1
2
3
4
5
6
7
知识图谱创建完毕

2.自定义非结构化数据创建知识图谱

需要先将非结构化数据保存到data目录下data1.txt文件中,

1655309806552代码如下(示例):

python test2.py
下面开始生成三元组结构化数据
[('赫哲人先民', '是', '肃慎族系的组成部分'), ('历史上', '包含', '于肃慎、挹娄、勿吉等古代民族之中')]
[('赫哲族先民与黑水靺鞨', '有', '密切的渊源关系')]
[]
[('唐于黑水靺鞨之地', '设', '黑水军')]
[('辽代', '属于', '生女真北支的一部分')]
[('赫哲族先民', '归属', '其内')]
[]
[('金收国元年(1115)', '设置', '胡里改路'), ('赫哲族先民', '归属', '其内')]
[('元代', '为', '女真水达达人的一部分')]
[]
[('赫哲族先民', '归属', '其内')]
[]
[('赫哲人', '是', '野人女真的重要组成部分')]
[]
[('这', '奠定', '基础')]
[]
[]
[]
[]
[('海西女真', '居于', '松花江下游一带'), ('海西女真', '定居于', '辽河上游至松花江上游之间')]
[]
[('明朝', '是', '赫哲族形成的孕育时期'), ('赫哲族体', '进入', '形成期')]
[('满族和赫哲族', '出自于', '黑水靺鞨')]
[('建州、海西女真', '成为', '满族形成的主体')]
[]
[]
[('中国的赫哲族和俄罗斯的那乃人', '是', '剃发黑斤的后裔'), ('被俄罗斯学者错划为乌尔奇人的', '是', '不剃发黑斤的后裔')]
[('努尔哈赤与清朝', '用兵', '对赫哲人居住的地区')]
[]
[('对赫哲族用兵的主要原因', '是', '“慢不朝贡”')]
[]
[]
[]
[('清朝统治者', '采取', '削弱、同化的政策')]
[('编入八旗的赫哲人(佛满洲)', '融入', '满族中')]
[]
...(省略)

四、Docker镜像说明

采用Docker技术镜像化,上传至远程仓库,不需要在为环境配置烦恼,直接拉取镜像, 代码如下(示例): 拉取镜像

docker pull 779425102/debian_centos7initial:kg_lxx

创建容器

mkdir /opt/docker_dir
docker   run -itd   --name kg -p 7473:7473  -p 7474:7474  -p 7687:7687 -v /opt/docker_dir:/home/kg  779425102/debian_centos7initial:kg_lxx  /bin/bash

进入这个容器

docker exec -it kg /bin/bash

进入容器就可以使用,使用方式同使用步骤


github链接

https://github.com/feilanlong/knowledge-graph.git

联系方式

QQ/VX:779425102 邮箱:779425102@qq.com

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages