以文本方式查看主题 - 课外天地 李树青 (http://www.njcie.com/bbs/index.asp) -- 信息检索原理课件 (http://www.njcie.com/bbs/list.asp?boardid=16) ---- [转帖]THUOCL:清华大学开放中文词库 (http://www.njcie.com/bbs/dispbbs.asp?boardid=16&id=1810) |
-- 作者:admin -- 发布时间:2017/5/11 17:55:04 -- [转帖]THUOCL:清华大学开放中文词库
目录词库简介THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点:
该词库可以用于中文自动分词,提升中文分词效果。建议搭配本组研制开发的THULAC工具包使用,提升特定领域中文分词的效果。 词库格式及词频统计语料库词库每一行由两部分组成,分别是词和DF值(存在此单词的文档个数),中间由Tab间隔。 词频统计语料库:
词库清单IT
词表简介:本词表包含了大量IT类词汇。
词条样例:文件备份、虚拟地址、C++编程、事务调度、强连通缩点。
词条数量:16000条
词频统计语料库:CSDN博客
更新时间:2016-12-24
贡献者:马云山、韩世依、张钰晖
下载链接:点此下载 财经
词表简介:本词表包含了大量财经类词汇。
词条样例:年期、调整方案、全面收购、差价、萎缩。
词条数量:3830条
词频统计语料库:新浪新闻
更新时间:2016-12-24
贡献者:韩世依、张钰晖、马云山
下载链接:点此下载 成语
词表简介:本词表包含了大量成语词汇。
词条样例:故作高深、有理有据、用之不竭、人微言轻、因地制宜、求贤若渴。
词条数量:8519条
词频统计语料库:新浪新闻
更新时间:2016-12-24
贡献者:韩世依、张钰晖、马云山
下载链接:点此下载 地名
词表简介:本词表包含了大量地名词汇。
词条样例:浙江、上海、澳大利亚、珠穆朗玛峰、湘潭县、大甲镇。
词条数量:30633条
词频统计语料库:新浪新闻
更新时间:2016-12-24
贡献者:韩世依、张钰晖、马云山
下载链接:点此下载 历史名人
词表简介:本词表包含了大量历史名人类词汇。
词条样例:陆游、荀彧、诸葛亮、孙权、张伯伦。
词条数量:13658条
词频统计语料库:新浪新闻
更新时间:2016-12-24
贡献者:韩世依、张钰晖、马云山
下载链接:点此下载 诗词
词表简介:本词表包含了大量诗词名句。
词条样例:更上一层楼、犹抱琵琶半遮面、路漫漫其修远兮、任尔东西南北风。
词条数量:13703条
词频统计语料库:新浪新闻
更新时间:2017-01-20
贡献者:张钰晖、韩世依、马云山
下载链接:点此下载 医学
词表简介:本词表包含了大量医学类词汇。
词条样例:患者、充血、皮疹、冬虫夏草。
词条数量:18749条
词频统计语料库:新浪新闻
更新时间:2017-01-20
贡献者:张钰晖、韩世依、马云山
下载链接:点此下载 饮食
词库简介:本词库包含了大部分饮食类词汇。
词条样例:土豆、火锅、意大利面、果佳、猴头菇。
词条数量:8974条
词频统计语料库:搜狗语料
更新时间:2017-04-20
贡献者:王盟源、吴佼玉、黄伟杰,林永天
下载链接:点此下载 法律
词库简介:本词库包含了大部分法律类词汇。
词条样例:版权、有关部门、有限责任公司、土地审裁处法官、日本庄园制度。
词条数量:9896条
词频统计语料库:搜狗语料
更新时间:2017-04-28
贡献者:王盟源、吴佼玉、黄伟杰,林永天
下载链接:点此下载 开源协议
作者贡献者: Shiyi Han (韩世依,北京航空航天大学本科生), Yuhui Zhang(张钰晖,清华大学本科生), Yunshan Ma(马云山), Cunchao Tu(涂存超,清华大学博士生), Zhipeng Guo(郭志芃,清华大学本科生). 指导老师: Zhiyuan Liu(刘知远,清华大学助理教授), Maosong Sun(孙茂松,清华大学教授). Copyright:Natural Language Processing and Computational Social Science Lab, Tsinghua University |