-
发布Java简体中文分词组件 - KSeg4J 1.0
日期:2009-07-03 | 分类:Playing With Technology
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://keilt.blogbus.com/logs/39295755.html
May 22, 2009 更新下载地址
May 16, 2009 更新一个Swing例子
Jul 3, 2009 更新下载地址到大米盘自己写的一个简单的用于简体中文分词的Java组件。有关机械分词算法可以参考我的另一篇文章。
已实现的功能:
1.对简体中文文本进行分词。
2.使用用户自定义分词词典。
3.结合正、逆向最大匹配算法消除歧义。
尚未实现功能:
1.繁体中文分词。
2.中文姓名识别。
3.中英文混合词识别。
4.词性标注。
使用方法:
1.导入KSeg4J包到项目
2.实例化Seg类
3.调用seg方法分词
(详情请参见Javadoc文档)
一个Swing例子:
在上方文本框输入待分词文本,在下方文本框输出。
截图:
下载此Example:
KSeg4J - Example
注意事项:
1.Seg类最好在程序运行时实例化,而不是每进行一次分词实例化一次,因为分词前需要加载分词词典(如果你打开jar文件,可以看到这个词典大约包含28万个条目),这个过程需要消耗较多时间(在我的电脑上大约1~2秒)。
2.本组件的线程安全性未经测试,请避免多线程同时访问。
3.本组件仅用于学习研究,是作者在业余时间开发。作者将尽力保证本组件的可靠性、正确性,但不会对使用此组件产生的任何后果负任何责任。下载此组件,意味着您已默认同意此条目。
4.如果有疑问或者bug反馈,欢迎通过Email联系我,Email地址可以在主页右上方找到。KSeg4J下载地址:
KSeg4J 1.0 Jar and JavaDoc随机文章:
中文信息处理之一 - 机械分词 2008-10-23一个令我十分费解的java问题(Updated) 2009-04-10用于SmartMovie的SRT字幕转SUB字幕工具 2009-07-07You know what is cool? Check it out 2009-02-13Thinking in Ireland 2008-10-05
收藏到:Del.icio.us







