LJParser内容搜索与挖掘开发平台

来源:互联网 时间:1970-01-01

一、LJParser内容搜索与挖掘开发平台简介

LJParser内容搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。

LJParser是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。

LJParser内容搜索与挖掘开发平台的十大功能:

n        1. 全文精准检索

支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。

n        2. 新词发现:

从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。

n        3. 分词标注:

对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。

n        4. 统计分析与术语翻译

针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。

n        5. 文本聚类及热点分析

能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

n        6. 分类过滤

针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。

n        7. 自动摘要

能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。

n        8. 关键词提取

能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。

n        9. 文档去重

能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。

n        10. HTML正文提取

自动剔除导航性质的网页,剔除网页中的HTML标签和导航、广告等干扰性文字,返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。

二、LJParser开发平台可视化软件操作指南

按照功能依次介绍如下:

2.1:全文精准检索

 

选择语料文件夹,点击”开始建索引”按钮,系统对语料快速建立压缩索引;输入查询关键词,点击查询按钮,系统返回查询结果,并配以权重。

       全文精准搜索的特色在于:

       1、支持无词典索引,支持搜索维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言;

       当前的搜索大部分都需要内置一部核心词库,而维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言往往缺乏相关的电子资源,整理一部词典往往费时费力。JZSearch全文精准搜索引擎支持词典与无词典两种模式,无词典时,采用N-Gram模型,同样可以构建高速的索引与搜索。

2、支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索;

3、内置多种检索模型,支持多种排序策略,包括相关度、时序等;

4、全文索引压缩比约为1/4,大大减少了索引的开销,提高了所有效率;

5、支持丰富的查询语法,支持与、或、非以及邻近运算;

支持的典型查询语法包括:

       Sample1: [FIELD] title [AND] 解放军

       Sample2: [FIELD] title [AND] 解放军某部发生数百人感染甲流疫情

       Sample3: [FIELD] content [AND] 甲型H1N1流感

       Sample4: [FIELD] content [NEAR] 张雁灵 解放军

Sample5: [FIELD] content [OR] 解放军 甲流

       Sample6: [FIELD] title [AND] 解放军 [FIELD] content [NOT] 甲流

6、可扩展性强:支持数据库的全文搜索,以及word, ppt, pdf, email等各种文档格式的搜索;可以便利地构建各类网络搜索引擎服务。

2.2:新词发现

 

1)在“语料源所在路径”输入框中输入需要提取新词的语料所在路径,语料须以txt文件的方式存储在输入的语料源目录下。

2)如果“语料源所在路径”是通过选择文件夹方式确定,则系统会缺省指定“新词存放地址”为当前工作目录/output/NewTermlist.txt;如果“语料源所在路径”是由手动输入,则需要指定输出的“新词存放地址”。

       3)点击“新词提取”按钮,系统开始进行发现新词的过程。结果输出到“新词存放地址”所指定的文件,另外也会输出到结果提示框中。

       本步骤所得到的新词,可以作为分词标注器的用户词典导入,从而使分词结果更加准确。对于不需要导入新词的用户,本步骤可以跳过。

2.3:导入用户词典,对语料进行分词及词性标注

1)导入用户词典

 

指定新词文件,用户可以对新词列表进行编辑(编辑见小图,注:系统给出的标注默认为newword,用户可以根据实际情况进行校对,词性可以标注为任意字符串,系统不做限制)后,再点击“导入用户词典”,在结果提示框中会显示是否导入成功。

对于不需要导入新词的用户,本步骤可以跳过。

2)语料标注分词 

首先指定语料源所在路径,该目录下的语料可以与新词发现中所使用的语料相同,也可以不同,根据用户需求确定。

同第一步一样,选择语料源所在路径后,系统会指定默认的“分词结果存放路径”为:当前工作目录/output/seg。用户也可以指定其它输出路径。分词及词性标注结果以txt格式文件存放,文件名与源语料中的文件名一致。

点击“语料库”分词,系统开始分词与词性标注。处理完成后,结果输出到“分词结果存放路径”目录下,系统会在完成时自动为用户打开该目录。

2.4:词频统计及翻译

 

1)输入“分词结果路径”,该目录下的文件为第二步分词标注的结果。

2)同样的,指定“分词结果路径”之后,系统会指定一个默认的“统计输出路径:当前工作目录/output。用户也可以指定其它输出路径。

3)点击“词频统计及翻译”按钮,系统开始统计词频、共现词对频率等信息。输出结果分别为:按照词典序排列的词频统计;按照词频大小排序的词频统计,该输出文件包含了词的英文翻译(如下图所示);按照共现词对频率排列的共现词对统计文件(如下图所示)。

2.5:文本聚类及热点内容分析

 

选择语料文件夹,设置参数和频繁出现的领域干扰词,点击聚类,系统返回语料所描述的热点事件话题。

2.6:分类过滤

1)规则分类过滤 

2) 选择语料文件夹,编辑分类规则文件(如图所示),点击“分类过滤”按钮,系统返回规则过滤的结果。

3)训练分类过滤 

 选择训练语料(各个类别需要按子文件夹排放,如图),点击“训练”按钮,系统进行类别特征的自学习;选择测试语料文件夹,点击“分类过滤”按钮,系统返回分类过滤的结果。

可以通过调节相似度,来控制分类过滤的内容模糊匹配程度。

2.7:文本摘要与关键词提取

 

选择语料文件夹,设置参数,点击获取按钮,系统自动显示摘要和关键词的结果。通过点击“上一篇”、“下一篇”按钮,可实现结果的快速浏览。

2.8:文档去重

选择语料文件夹,选择结果文件存放路径,点击“开始查重”按钮,系统返回查重的结果。

2.9:HTML正文解析

输入URL,点击抓取按钮,下载网页源文件;然后点击提取正文按钮,系统显示正文结果,去除了大量的垃圾干扰信息。

下载地址:http://www.lingjoin.com/download/LJParser.rar 

参考地址:http://www.lingjoin.com/product/ljparser.html

相关阅读:
Top