用MeCab打造一套实用的中文分词系统-范文、应用文-IT技术专栏-技术文章-考试资料-在线学习网

网站首页汉语字词英语词汇考试资料写作素材旧版资料

标题	用MeCab打造一套实用的中文分词系统
内容	虽然是愚人节，但是这个不是愚人节玩笑，最近花了一些时间在MeCab身上，越发喜欢这个来自岛国的开源分词系统，今天花了一些时间训练了一个更适用的模型和词典，打包提供给大家使用，因为数据和词典涉及到一些版权问题，所以打包文件里只是mecab用于发布的二进制词典和模型文件，目前在mac os和linux ubuntu系统下测试无误，其他系统请自行测试使用：链接: 密码: 8udf 了解和安装mecab请参考：日文分词器 Mecab 文档用MeCab打造一套实用的中文分词系统使用前请按上述文档安装mecab，下载这个中文分词模型和词典之后解压，解压后得到一个mecab-chinese-data目录，执行: mecab -d mecab-chinese-data 扬帆远东做与中国合作的先行扬帆v,,,,,,扬帆,,* 远东ns,,,,,,远东,,* 做v,,,,,,做,,* 与p,,,,,,与,,* 中国ns,,,,,,中国,,* 合作v,,,,,,合作,,* 的u,,,,,,的,,* 先行vn,,,,,,先行,,* EOS 上述第二列提供了词性标注结果。如果想得到单行的分词结果，可以这样执行： mecab -d ./mecab-chinese-data/ -O wakati 扬帆远东做与中国合作的先行扬帆远东做与中国合作的先行如果想直接对文件分词，可以这样执行： mecab -d ./mecab-chinese-data/ INPUT -o OUTPUT 具体可以参考上述两个文档，另外我在mac下测试了一下中文维基百科语料的切分速度，大概700多M的语料，不到90秒切分完毕，大概7M/s的切分速度完全达到了工业届的使用标准。另外Mecab还支持Nbest输出，多种输出格式，全切分模式，系统词典和用户词典定制等等，同时通过SWIG提供了perl, ruby, python, java的调用接口，非常方便。以下是在backoff2005 人民日报语料库上的测试结果： === SUMMARY: === TOTAL INSERTIONS:3803 === TOTAL DELETIONS:1981 === TOTAL SUBSTITUTIONS:5004 === TOTAL NCHANGE:10788 === TOTAL TRUE WORD COUNT:104372 === TOTAL TEST WORD COUNT:106194 === TOTAL TRUE WORDS RECALL:0.933 === TOTAL TEST WORDS PRECISION:0.917 === F MEASURE:0.925 === OOV Rate:0.058 === OOV Recall Rate:0.482 === IV Recall Rate:0.961 ###pku_test.result380319815004107881043721061940.9330.9170.9250.0580.4820.961 召回率93.3%，准确率91.7%, F值为92.5%, 虽然还没有一个单纯针对这个测试语料比赛的分词结果好，但是测试了一些其他语料后觉得这个版本完全可以作为一个基准版本使用，另外mecab也提供了用户定制词典接口，方便用户按自己的需求定制使用。
随便看	金华永康市2016年定向培养基层农技人员拟聘用人员公示调整2016年潜江市卫生计生招聘部分岗位计划公告宜宾县事业单位2016年考核招聘工作人员政策加分宜宾县事业单位2016年考核招聘工作人员面试通知单领取地点宜宾县事业单位2016年考核招聘工作人员面试通知单领取时间 2016年金华永康市西城流管所招聘启事 2016年三明市将乐县部分事业单位招聘递补体检注意事项 2016年金华永康市风景旅游管理局招聘启事宜宾县事业单位2016年考核招聘工作人员费用缴纳宜宾县事业单位2016年考核招聘工作人员所需材料宜宾县事业单位2016年考核招聘工作人员资格审查宜宾县事业单位2016年考核招聘工作人员联系电话宜宾县事业单位2016年考核招聘工作人员报名地点 2016年金华永康市风景旅游管理局招聘启事宜宾县事业单位2016年考核招聘工作人员报名邮箱宜宾县事业单位2016年考核招聘工作人员报名时间 2016年三明市将乐县部分事业单位招聘工作人员体检结果公布(一)等事项通告 2016年荆门市钟祥市依综合成绩由高到低依次递补考生公告大理州南涧县2016年事业单位考试招聘资格复审及面试通知宜宾县事业单位2016年考核招聘工作人员报考条件事项说明宜宾县事业单位2016年考核招聘工作人员不得报考条件宜宾县事业单位2016年考核招聘工作人员报考条件宜宾县事业单位2016年考核招聘工作人员招聘对象宜宾县事业单位2016年考核招聘工作人员公告 2016年荆门市沙洋县事业单位招聘人员综合成绩公告 grammar/british-grammar/low-or-short grammar/british-grammar/luck-and-lucky grammar/british-grammar/made-from-made-of-made-out-of-made-with grammar/british-grammar/make grammar/british-grammar/man-mankind-or-people grammar/british-grammar/many grammar/british-grammar/marry-and-divorce grammar/british-grammar/matter grammar/british-grammar/may grammar/british-grammar/may-as-well-and-might-as-well 口耳之学口耳相传口耳相承口若悬河口蜜腹剑口血未干口衔天宪口角春风口角生风口角风情 jQuery实现的鼠标经过时变宽的效果(附demo源码) JS模仿手机端九宫格登录功能实现代码 jquery拖动层效果插件用法实例分析(附demo源码) jquery实现去除重复字符串的方法小结 jQuery事件绑定on()与弹窗实现代码 JavaScript Math 对象常用方法总结 JavaScript String 对象常用方法总结如何使用jquery修改css中带有!important的样式属性 onclick和onblur冲突问题的快速解决方法 jquery弹出遮掩层效果

在线学习网考试资料包含高考、自考、专升本考试、人事考试、公务员考试、大学生村官考试、特岗教师招聘考试、事业单位招聘考试、企业人才招聘、银行招聘、教师招聘、农村信用社招聘、各类资格证书考试等各类考试资料。