首 页 中心简介 研究机构 新闻动态 课题项目 研究成果 工具资源 网站论坛 华语网站导航
研究热点
 全球华语词典
 全球华语研究
 全球华语语料库
 全球华文媒体调查
 全球华语用字用语研究
 全球华文教材研究
 全球留学生作文研究
   
资源推荐
 东南亚华语例句检索
 东南亚华语用字用语检索
 东南亚留学生作文检索
 华语语料库建设工具
 华语语料库字词统计工具
 华语语料库自动分词工具
 华语语料库自动标引工具
   
 
全球华语网:工具资源:软件资源
软件资源

    华语语料库信息抽取建库及检索系统

    集成语料下载、网页内容解析、语料库信息抽取建库、语料信息检索等功能的语料库一体化系统。方便语言学研究者无须掌握编程技术即可轻松打造自己的语料库,自由检索语料。

    参见《一个面向传统语言学研究的语料库一体化系统》

    华语语料库用字用语统计工具

    针对大规模语料库的汉字使用情况和词语使用情况的统计分析,中心自主完成了一个语料库用字用语的统计工具。

    A、 汉字使用情况统计
    汉字分类使用情况、标点符号和汉字部件的使用情况、汉字字表的覆盖率情况、按使用率排序的字表、按频率排序的字表。
    B、 词语使用情况分析
    不分词性统计的词表、分词性统计的词表;频次与词种数关系;高频词语用字统计;高频词语词长统计;覆盖率与词种数关系;词性及其频次的统计结果;词性及其词种数的统计结果;成语使用结果。
    C、 字词频序比、共用独用分析
    统计字词的频序比,几个字词表之间的共用独用分析。

    对外汉语教学辅助系统

    完成的词语自动按领域聚类和文本分类系统,对对外汉语教学,特别是如下两个方面,将有很好的帮助:

    1、对外汉语教学用电子教材:例如,传统报刊阅读课的取材通常是收集相关报刊杂志的文章来编成教材。这种做法的缺陷是素材更新太慢,内容陈旧,落后于信息时代的高速发展,不能及时反映当前时事热点和社会发展状况。我们建议的方法是现场取材,以近期甚至当天的报刊为材料,及时生鲜,根据学生感兴趣的话题,聚集相关主题的报刊文章、背景知识以及相关内容来作为教学材料。因此,这个问题也就是报刊语料的话题聚类,是一个文本分类的问题。

    2、对外汉语教学用分类词表:对外汉语教学不仅有学生汉语水平等级的差别,进行因材施教,而且应该有面向教学领域,即学科的差别。例如,在掌握一定的汉语基础后,学生可能会针对从事不同行业(如经济、旅游等)的目标,重点进行该行业的语言学习,如商务高级汉语教学(国家汉办正在组织研制四个HSK专项考试:HSK少儿、商务、旅游和文秘)。

    无论是面向不同行业的专业汉语教学,还是HSK专项考试,首先面临的难题就是词语表的问题。例如,在旅游汉语教学中,我们究竟应该教给学生哪些旅游方面的词语?在考试中,学生应该掌握哪些旅游词语才能在中国从事旅游行业,我们应该考察哪些词语?对于不同等级学生的教学和考试,词语如何分级?这些都归根结底为领域词语的选择问题,根据分类词表的特点(领域性和等级性),词表的构建工作实际上包括两个子问题:

     A:如何将领域中的词语聚集成群并抽取出来(词语按领域聚类)。

     B:如何将领域中的词语按照流通程度或使用频率进行分级(词语按流通度分级)。

    与词典编撰类似,这两个问题也得到了较好的解决,例如,我们去年为北京大学完成的HSK(商务)词表就是很好的例子。

    类似地,在报刊阅读话题课中,如何根据话题确定教学的话题词簇是一个关键问题。话题词簇指的是与某一话题紧密关联的词语群,是该话题领域中最基本、最常用的那些词语。例如,“春运”的话题词簇可能是:“春运、客流、旅客、临客、客流高峰、运力、人次、火车票、铁路、客运、候车、增开、返乡……”。因此,如何按照话题聚集该领域的相关词语是该问题的核心。实际上,这也是一个词语聚类的问题,我们已经很好地解决了(举例的话题及其词簇词语就是来自我们自动聚类的词表)。

    我们将利用已经完成的大规模分类标注语料库、文本分类及主题词标引系统和词语聚类方法,构建一个面向对外汉语教学的教学资源平台。 

    词语表下载:“分类词语表”

           “HSK商务词表”

                “聚类词语表”

    词典编撰辅助系统

    词典建设是一项基础性工程,在信息化高度发展的今天,如何利用高科技手段辅助词典编撰已成为一项非常有意义的课题。分类词典编撰的关键问题在于学科词条的获取和选择。其中第一个问题实际上是个分类问题,即将词语归入到其所属学科类别的问题,这个问题我们已经通过词语聚类解决。第二个问题是个再选择问题,上面(3.2.2.3节)已经提到可以通过改变n的取值来调节词频的影响,当n取值小时,倾向于词频大的词,即可获得学科最基本、普通的词条(领域通用词);当n取值大时,则词频的影响减弱,倾向于词频小的词,可获得专业性很强的学科术语(领域专类有词),因此这个问题也可以得到很好的解决。另外,基于大规模分类语料库的词条定义提取和例句检索也是我们今后的一个研究方向,结合词条的获取和选择,设计开发一个计算机辅助词典编撰的应用系统,将会是我们未来的工作之一。

    文本分类主题词自动标引系统

    以统计方法获得领域知识(以语言学和认知学上的短语为基本对象,利用数据挖掘中的特征提取方法构建大规模领域知识库),在领域知识基础上再施行统计方法。系统集成文本分类(网页层级多标记分类)、关键词标引、自动文摘功能,以xml、rdf格式将文本结构和内容可视化表示出来,补充信息检索中文本缺乏内容语义表示的缺憾。目前已完成文本分类(层级多标记、244个类目主题)、关键词标引功能模块。文本分类在三万篇测试集上的F值达93%,个别类别如体育达99.2%,大类内部的层级小类的F值也较高;关键词标引专家认可程度较高(高于人工标注结果,得分约8分),自动文摘和模拟检索正在进行中。力图结合文本分类、主题词标注和自动文摘三项功能模块,将文本内容语义以可视化的形式(xml、rdf) 充分表示出来,从而为搜索引擎的智能化和大规模内容计算服务(正在申请三项发明专利)。该系统还应用于新闻传播领域,如门户网站和报刊的文本分类、关键词标引、自动文摘、检索和计算机辅助编辑;对外汉语教学计算机辅助词表建设、教材编写和计算机辅助词典编撰。

                        文本分类主题词自动标引系统(在线演示)

    词语切分系统

    与通常的切分软件切分结果不同,基于上述大词语表(38万词条)的词语切分系统表现出如下一些特点:粒度较粗,词表中词语的平均长度为3.6(含单字、二字词、字母数字词、多字词),切分结果专指性强、结构完整、语义单一,理论上,避免了一些以词为主的底表的切分错误。由于词语表含有大量专名术语,因此,基本上能将起到领域表示作用的专名切出来,那些切不出来的专名也是偶尔出现的,如社会新闻中偶尔出现的人名,一般不具有特征表示的意义。特别适合面向特定领域(如经济、科技等)的信息处理。

                     基于大词语表的词语切分系统(在线演示)

 
版权所有 2006 © 海外华语研究中心 全球华语网

地址:广州市广园东路暨南大学华文学院海外华语研究中心 邮编:510610
网址:http://huayu.jnu.edu.cn Email:liuhua0461@sina.com  管理员登陆