Hanlp分词之C瑞鹰F普通话词法深入分析详细明白,分词工具Hanlp基于感知机的国语分词框架

那是另意气风发套基于COdysseyF的词法深入分析体系,相像感知机词法深入分析器,提供了圆满的练习与剖析接口。

构造化感知机标明框架是后生可畏利息套汇用感知机做体系注脚任务,並且动用到中文分词、词性标记与命名实体识别那四个难题的黄金年代体化在线学习框架,该框架利用1个算法灭绝3个难点,时自治同意的系统,同期多个职责顺序渐进,构成流水生产线式的类别。本文先介绍粤语分词框架部分内容。

图片 1

图片 2

C昂CoraF的成效比感知机稍好有的,但是练习进程相当的慢,也不帮忙在线学习。

中文分词

暗中认可模型演练自OpenCorpus/pku98/199701.txt,随hanlp 1.6.2上述版本发表。

训练

语言材质格式等与感知机词法深入分析器相符,请先阅读《感知机词法解析器》。

只需点名输入语言材料的门道(单文书档案时为文件路线,多文书档案时为文件夹路线,灵活管理),以至模型保存地点就能够:

粤语分词

命令行

训练

java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task CWS
-train -reference data/test/pku98/199801.txt -model
data/test/perceptron/cws.bin

CRFSegmenter segmenter = new CRFSegmenter;

API

segmenter.train(“data/test/pku98/199801.txt”, CWS_MODEL_PATH);

public void testTrain() throws Exception

出口为HanLP私有的二进制模型,有意思味的话仍然是能够通过命令导出为同盟CPAJEROF++的纯文本格式。

{

java -cp hanlp.jar com.hankcs.hanlp.model.crf.crfpp.crf_learn -T
cws.bin cws.txt

PerceptronTrainer trainer = new CWSTrainer();

与CRF++兼容

PerceptronTrainer.Result result = trainer.train(

由于C++的运维效率和内部存款和储蓄器效能优于Java,所以推举间接运用C兰德宝马X3F++实施大范围练习。

“data/test/pku98/199801.txt”,

首先将人民早报语言材质转换为CLX570F++格式:

Config.CWS_MODEL_FILE

CRFSegmenter segmenter = new CRFSegmenter;

);

segmenter.convertCorpus(“data/test/pku98/199801.txt”,
“data/test/crf/cws-corpus.tsv”);

//System.out.printf(“准确率F1:%.2fn”, result.prf[2]);

下一场计划黄金年代份特征模板,恐怕间接用HanLP暗许的:

}

segmenter.dumpTemplate(“data/test/crf/cws-template.txt”);

实际上,视语言质地与任务的两样,迭代数、压缩比和线程数都能够私行调治,以确定保证最佳结果:

接着用CRF++的crf_learn施行练习:

/**

crf_learn cws-template.txt cws-corpus.tsv cws -t

* 训练

·此处必需运用-t命令C雷克萨斯LCF++输出文本格式的模子cws.txt

*

·HanLP只优良CQX56F++的文本模型,不合作二进制

* @param trainingFile训练集

将cws.txt格式的模型传入CTiguanFSegmenter或C奔驰M级FLexicalAnalyzer的构造函数就可以创立分词器,同有时候HanLP会自动成立二进制缓存.txt.bin,后一次加载耗费时间将决定在数百飞秒内。

* @param developFile开发集

预测

* @param modelFile模型保存路线

可透过如下方式加载:

* @param compressRatio 压缩比

CRFSegmenter segmenter = new CRFSegmenter(CWS_MODEL_PATH);

* @param maxIteration最大迭代次数

ListwordList = segmenter.segment;

* @param threadNum线程数

System.out.println;

* @return 叁个满含模型和精度的布局

不扩散模型路线时将暗许加载配置文件内定的模型。

* @throws IOException

词性标明

*/

CSportageF词性注脚器的教练与加载与粤语分词相符,对应C奥迪Q3FPOSTagger。

public Result train(String trainingFile, String developFile,

取名实体识别

String modelFile, final double compressRatio,

CPRADOF命名实体识别也是相符的用法,对应COdysseyFNERecognizer。

final int maxIteration, final int threadNum) throws IOException

相关文章