中国传媒大学有声媒体文本语料库是一个开放、免费使用的语料库。语料库包括2008至2013六年的34,039个广播、电视节目的转写文本,总字符数为241,316,530个,总汉字数为200,071,896个。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。各年度语料规模如下表。
|
年份 |
字符数 |
汉字数 |
文本数 |
2008年 |
41,915,047 |
34,344,273 |
5,731 |
2009年 |
41,619,011 |
34,507,007 |
5,781 |
2010年 |
41,599,408 |
34,300,968 |
4,359 |
2011年 |
38,225,239 |
31,957,770 |
5,509 |
2012年 |
39,078,827 |
32,602,491 |
6,593 |
2013年 |
38,878,998 |
32,359,387 |
6,066 |
|
为帮助研究者更方便地使用本语料库写作论文选择例句,语料库专门设计了检索结果保存功能,可以把检索结果全部下载保存在本地机的一个文本中,系统没有对下载的数量进行限制。保存前还设计了两个可选择的项目:是否保存出处、是否需要加序号。如果选中“保存出处”,保存结果如下例所示,其中关键字串用“【】”标出。
敦煌飞天是中国人物画艺术中的一朵【奇葩】。(北京电视台\中华文明大讲堂\第十六讲 敦煌壁画欣赏之二:本生故事画与经变画欣赏\2008-01-24)
总之,这是个拥有无数怪诞藏品的【奇葩】博物馆。(中央人民广播电台\中国之声\新闻纵横\2013-07-15)
如果同时选中“加序号”,则在每个句子前面加上表顺序的数字,如下例所示:
12敦煌飞天是中国人物画艺术中的一朵【奇葩】。(北京电视台\中华文明大讲堂\第十六讲 敦煌壁画欣赏之二:本生故事画与经变画欣赏\2008-01-24)
68 总之,这是个拥有无数怪诞藏品的【奇葩】博物馆。(中央人民广播电台\中国之声\新闻纵横\2013-07-15)
虽然本语料库经过多次改版,但可能还有很多不尽如人意之处,在使用过程中有什么意见和建议,请及时联系我们,只要是能力可及的,我们会尽量改进。先谢谢大家了!
最后声明:语料版权归原作者所有,本语料库仅供作学术研究之用,不得用于其他用途,否则后果自负。
联系我们
http://ling.cuc.edu.cn/chs/contactus.asp
|