WordMaster 是什么
WordMaster 中文分词基础件,是业界领先的中文分词API产品。WordMaster 内置了大容量分词词库和行业关键词词库,包含索源网自主开发的多种基本分词算法和智能分词算法,并具备分词词库在线扩展功能,用户可以添加自定义分词词汇。该产品具有分词准确、高效,使用便捷、稳定的特点,用户可在该产品基础上进行方便的二次开发。
WordMaster 应用范围
WordMaster 可广泛使用于中文信息处理的各个应用领域,如搜索引擎;信息检索和信息摘录;文本自动分类、聚类和自动文摘;文章校对;自然语言理解和自动翻译;智能拼音输入、手写和语音自动识别输入;语音合成;自然语言接口等。
WordMaster 功能特色
集成多种分词算法
基本分词算法:快速分词算法,以词典匹配为基础结合语言学知识进行消歧,在具备极高运行效率的基础上保证分词精度;全切分算法,可以给出全部可能的切分结果。
复合分词算法:在基本分词算法的基础上,结合机械分词方法和统计学方法自主研制的复合分词算法,可以有效地消除分词歧义,显著提高分词精度。
智能复合分词算法:在复合分词算法的基础上,增加了实体名称自动识别等未登录词识别功能,能够自动识别人名、地名、机构名称、URL、E-mail地址、IP地址等(可随需扩展),进一步提高分词精度。
大容量基本词库
由索源网收集整理,超过15万中文标准词汇和常用语的分词基本词库。
行业关键词库
由索源网收集整理,约22000个行业常用关键词,适合于面向行业的分词应用。
词库扩展性
用户可以使用API接口,在线增删词汇,导入用户自定义词典文件。扩展词库不仅支持中文词汇,更提供对英文、数字、符号组合等非中文标准词汇的支持。
多语言支持
分词产品采用UTF-8内核,易于实现多语言扩展。
多线程支持
具备线程安全性,支持多线程调用。
WordMaster 运行平台
Microsoft Windows 2000 / XP / Vista / 2000 Server / 2003 Server (32位)
可扩展至32/64位Linux平台
WordMaster 当前版本
Version 2.0
