首 页 中心简介 研究机构 新闻动态 课题项目 研究成果 工具资源 网站论坛 华语网站导航
研究热点
 全球华语词典
 全球华语研究
 全球华语语料库
 全球华文媒体调查
 全球华语用字用语研究
 全球华文教材研究
 全球留学生作文研究
   
资源推荐
 东南亚华语例句检索
 东南亚华语用字用语检索
 东南亚留学生作文检索
 华语语料库建设工具
 华语语料库字词统计工具
 华语语料库自动分词工具
 华语语料库自动标引工具
   
 
全球华语网:工具资源:词语表

    基于大规模的东南亚华语语料库,统计出东南亚华语字词表。字词表包含详细信息:语料来源媒体、位序、频次、文档数、频率、累加频率、文档频率。
    东南亚字词查询:东南亚华语字词表

    基于大规模的东南亚华语语料库,统计出东南亚华语的特色词语,如组屋、接获、集选区等。字词表包含详细信息:语料来源媒体、位序、频次、文档数、频率、累加频率、文档频率。

    词语表共48万词条,含有大量专名、术语,如经济、科技、房地产、汽车、游戏、体育、旅游、娱乐、军事、时政新闻、教育等领域的新词语(专名、术语)。新词语以命名实体为主,结构固定,意义完整性和专指性强,有助于解决歧义切分和未登录词问题,并能提高文本表示如分类和关键词标引的效果。适合用于信息检索、文本分类、主题词标引、本体构建和面向特定领域的输入法等等。

    基于大规模分类语料库,以词和短语作为聚类对象,利用文本分类的特征提取方法进行词语的领域自动聚类,从而获得大规模的领域知识,取得较理想的效果。利用该方法构建的大规模领域知识库将有利于文本分类、主题词标引等相关的文本主题分析。

    详情参见《基于文本分类中特征提取的领域词语聚类》

    主要用于以下几个方面:

    对外汉语教学词语按话题聚类分级:利用本系统提供的文本特征提取方法可以快速自动聚类出与话题相关的词语集合,并将词语按流通度分级,有利于教师选择与话题相关的词语集合进行教学。

    对外汉语教学词表建设目前,对外汉语教学和测评用的词表,对所有国家和所有专业领域都是一样的。而实际上,不同专业领域也需要不同的领域词表,例如,正在进行的HSK商务(文秘、旅游等)就需要构建相应的词表。

    分类词典编撰针对分类词典中学科词条的获取和选择问题,利用文本分类和聚类中特征提取的方法进行词语聚类,从而达到辅助词典编撰的目的。

    词语表下载:“分类词语表”、“HSK商务词表”

    对所有150万个网页中文档频数大于20的关键词聚类后得到5万个聚类词语表。
    语料规模:150万个网页,15亿字,15个大类,四级共244个层级小类,如“科技_电脑_硬件_显示设备”。
    处理流程:全自动。涉及“关键词标引、文本分类、词语聚类、词语相似度计算、查询扩展”等数据挖掘技术。
    词表规模:5万聚类词表,每表200词条。核心词5万,主要是文本表示功能强的术语或命名实体。
    查询结果将只显示20个词语。如果一个核心词对应多个类别,将按类别与核心词的相关性排序。

    词语表下载:“聚类词语表”

    在线检索:“聚类词语在线检索”

新词语词典编撰

    新词语词典编撰的关键问题是新词语的获取,即动态更新新词语。目前我们已经完成了一个新词语自动获取及领域聚类系统,系统实时抽取大规模网页上的新词语,按照网页发布时间定义新词语,并按照该网页栏目对应的网页分类用类别体系的类目将新词语分类,同时达到新词语快速识别和领域聚类的目的。

    目前,正准备利用新词语自动获取和聚类系统,每年进行分领域的新词语发布与新词语词典出版。

    另外,基于大规模分类语料库的词条定义提取和例句检索也是我们的一个研究方向,结合词条的获取和选择,设计开发一个计算机辅助词典编撰的应用系统,将会是我们未来的工作之一。

    《一种快速获取领域新词语的新方法》

 
版权所有 2006 © 海外华语研究中心 全球华语网

地址:广州市广园东路暨南大学华文学院海外华语研究中心 邮编:510610
网址:http://huayu.jnu.edu.cn Email:liuhua0461@sina.com  管理员登陆