GitHub - jackylee1993/DiscourseParser: Backend Discourse Analysis

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
data		data
library		library
resource		resource
src		src
impRelTrainData._scale.txt.model		impRelTrainData._scale.txt.model
libsvmTrainData_scale.txt.model		libsvmTrainData_scale.txt.model
readme.txt		readme.txt
wordTrainData_scale.txt.model		wordTrainData_scale.txt.model

Repository files navigation

根目录下的各个包的介绍：

1：data：data文件夹下面包含了系统在运行和训练过程中产生的数据，具体的说明请参考文件夹下面的readme
2：doc： 程序的设计文档，以及说明文件。

3：example：在调试程序中出现的各种截图例子
4：library：这个是ansj分词使用到的默认词典的位置以及使用到的第三方lib，该死的ansj竟然要单独设置一个文件夹来存放。

5：resource：资源文件夹，里面包含了程序训练模型和识别的时候需要的数据，比如：连词词典，情感词典等等

6: src包说明：

    源文件主要分为七个包。其中
    (1):common:       主要存放基本常用的工具包util.java和常量集合Constants.java
    (2):dataAnalysis: 主要是用于原始数据分析
    (3):entity:       主要是篇章分析时所涉及到的封装好的实体类。

    (4):lab：         主要是用于做实验，比如识别连词。
    (5):syntax:       主要负责完成数据词法、语法以及短语结构分析
    (6):resource：    主要用于完成资源的加载
    (7):train：       主要用于训练模型

DiscourseParser.java: 主程序文件
WebServer.java: 服务器文件

目前系统的缺点是没有将训练模型和最终的DP识别分开，导致了系统的框架比较乱，后续有时间的话需要将程序进行拆分。