nlp-ali

金融大脑的挑战赛个人的代码

近期做了一些NLP的研究，并基于6月份蚂蚁金服金融大脑的挑战赛，完成了文本相似度计算的验证。主要思路是基于word2vec来进行训练，并实现文本相似度的计算。所使用的语料，包括了公开的wiki语料，网友收集的微信语料，以及此大赛中的语料。其中微信语料的位置在https://spaces.ac.cn/archives/4304（可参考）。

注意，此次语料训练采用了增量训练的方式。

使用方式： 1、下载此代码到本地。 2、下载训练的模型。位置在https://u17749188.pipipan.com/fs/17749188-297253710。下载后放到models目录下。 3、运行python ali_wx_wiki_vec_compare.py ./input_test.txt ./temp/ 4、结果在temp目录下。

训练： 1、下载数据到本地。拷贝到此代码大的根目录下。数据公开的网址稍后更新。 2、运行如下脚本即可。 python word2vec_train.py

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
ali_wx_wiki_vec_compare.py		ali_wx_wiki_vec_compare.py
input_test.txt		input_test.txt
remider		remider
run.sh		run.sh
user_dict.txt		user_dict.txt
word2vec_train.py		word2vec_train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

nlp-ali

About

Uh oh!

Releases

Packages

Languages

TFNLP/nlp-ali

Folders and files

Latest commit

History

Repository files navigation

nlp-ali

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages