以文本方式查看主题

-  课外天地 李树青  (http://www.njcie.com/bbs/index.asp)
--  信息检索原理课件  (http://www.njcie.com/bbs/list.asp?boardid=16)
----  [转帖]教机器学习摘要  (http://www.njcie.com/bbs/dispbbs.asp?boardid=16&id=1727)

--  作者:admin
--  发布时间:2016/6/27 13:14:59
--  [转帖]教机器学习摘要
http://mp.weixin.qq.com/s?__biz=MzA4OTk5OTQzMg==&mid=2449231209&idx=1&sn=6a569dc799be71818bd7414e0a4d61a4&scene=23&srcid=0627o28YoO6OqCrcojgbTRfT#rd
--  作者:admin
--  发布时间:2016/6/27 13:15:30
--  摘要语料库

这里的语料分为两种,一种是用来训练深度学习模型的大型语料,一种是用来参加评测的小型语料。

1、DUC http://duc.nist.gov/
这个网站提供了文本摘要的比赛,2001-2007年在这个网站,2008年开始换到这个网站TAC http://www.nist.gov/tac/。很官方的比赛,各大文本摘要系统都会在这里较量一番,一决高下。这里提供的数据集都是小型数据集,用来评测模型的。

2、Gigaword https://catalog.ldc.upenn.edu/LDC2003T05
该语料非常大,大概有950w篇新闻文章,数据集用headline来做summary,即输出文本,用first sentence来做input,即输入文本,属于单句摘要的数据集。

3、CNN/Daily Mail
该语料就是我们在机器阅读理解中用到的语料,该数据集属于多句摘要。

4、Large Scale Chinese Short Text Summarization Dataset(LCSTS http://icrc.hitsz.edu.cn/Article/show/139.html)[6]
这是一个中文短文本摘要数据集,数据采集自新浪微博,给研究中文摘要的童鞋们带来了福利。