首 页 中心简介 研究机构 新闻动态 课题项目 研究成果 工具资源 网站论坛 华语网站导航
研究热点
 全球华语词典
 全球华语研究
 全球华语语料库
 全球华文媒体调查
 全球华语用字用语研究
 全球华文教材研究
 全球留学生作文研究
   
资源推荐
 东南亚华语例句检索
 东南亚华语用字用语检索
 东南亚留学生作文检索
 华语语料库建设工具
 华语语料库字词统计工具
 华语语料库自动分词工具
 华语语料库自动标引工具
   
 
全球华语网:工具资源:语料库
东南亚主要华文媒体语料库
    东南亚主要华文媒体,指的是东南亚的华语报纸、华语网站。东南亚主要华文媒体语料库的来源综合考虑语料的地域分布,以新加坡、马来西亚和泰国为主,时间上动态更新,逐年增加;内容上,考虑不同主题的分布情况,如政治、经济、文化、教育等等。
    东南亚华文媒体较多,由于我们对语料获取的技术限制,以及其他因素的影响,有的华文媒体语料无法获得,因此,选择的来源媒体主要考虑了语料的可获取性、媒体影响和信息量三个因素。
    目前,该语料库的语料时间跨度为2005年到2008年,均来自于网络,做了去除HTML标签信息和广告信息的处理,抽取出了网页正文、标题、发表时间、媒体来源(如国家、媒体名称)等信息,以XML格式存储。总共文本数为343978个,约3亿字。
    下面是语料来源的具体信息:
    新加坡:亚洲新闻网、新动网、联合早报。
    马来西亚:马新社中文网、光华日报电子新闻、独立新闻在线、韩视新闻中心、亚洲时报。
    泰国:泰国世界日报。
    对于东南亚主要华文媒体语料库,我们做了自动分词和词性标注的处理。并且,对于每一媒体的子语料库,统一做了用字用语的标记和统计分析。例如,针对汉字分类使用的统计分析,在语料库中,分别标记出了规范字、繁体字、异体字、不规范的简化字、旧印刷字形、日本汉字、旧计量用字和韩国汉字。
    目前,华语中心已经完成了一个网络版的在线语料检索系统(huayu.jnu.edu.cn/corpus.htm),可以检索任意字串或符号,可以利用规则进行高级检索。
    同时,也完成了一个网络版的语料库用字用语检索系统(huayu.jnu.edu.cn/corpus.htm),可以检索任意汉字或词语在各个媒体子语料库中的使用情况。
    基于东南亚主要华文媒体语料库,海外华语研究中心进行了东南亚华语用字用词统计调查,并完成了“东南亚华语用字用词统计调查”、“东南亚华语特色词”两个报告(约6万字),已经由“国家语言资源监测与研究中心”《中国语言生活状况报告》发布,商务印书馆出版。并且发表多篇华语研究的论文。


    在线检索:东南亚主要华文媒体语料库例句检索
    在线检索:东南亚主要华文媒体语料库用字用语检索
    在线演示:东南亚主要华文媒体用字与用语调查研究
 
版权所有 2006 © 海外华语研究中心 全球华语网

地址:广州市广园东路暨南大学华文学院海外华语研究中心 邮编:510610
网址:http://huayu.jnu.edu.cn Email:liuhua0461@sina.com  管理员登陆