中国传媒大学有声媒体文本语料库是一个开放、免费使用的语料库。语料库包括2008至2013六年的34,039个广播、电视节目的转写文本,总字符数为241,316,530个,总汉字数为200,071,896个。为保证语料的典型性和代表性,每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本;为便于研究者做6年间的历时语言调查,各年度的语料规模尽可能平衡。各年度语料规模如下表。

有声媒体语料库2008年-2013年各年度语料规模

年份 字符数 汉字数 文本数
2008年 41,915,047 34,344,273 5,731
2009年 41,619,011 34,507,007 5,781
2010年 41,599,408 34,300,968 4,359
2011年 38,225,239 31,957,770 5,509
2012年 39,078,827 32,602,491 6,593
2013年 38,878,998 32,359,387 6,066

    本语料库所有语料都进行了元数据标注。所以既可以利用全部2亿字语料进行关键字检索,也可以根据研究需要,在检索页面选定相应的属性项,进行特定时间段(如2008年度、2010至2013年度)、特定媒体(广播、电视)、特定单位(如中央电视台、北京电视台、中央人民广播电台)、特定语言形式(独白、对话)、特定语体(独白形式可分为播报、谈话、解说、朗读;对话形式可分为二人谈、三人谈、多人谈)、特定领域(如新闻、经济、军事)、特定栏目(如《新闻联播》《鲁豫有约》《新闻与报纸摘要》)、特定主持人(如白岩松、陈鲁豫、崔永元)等进行关键字检索。各属性之间有级联关系,既可以进行单独属性锁定查询,也可以进行属性间组合查询。如果“媒体”项选定了“广播”,不选择其他,就意味着下面的检索将在所有的广播语料中进行;如果“媒体”项选定了“广播”,那么在栏目项中只能选择广播的节目,不会再出现“新闻联播”这样的电视中的节目名称。如果所有的属性都没有选择,那就意味着将在全部2亿字次的语料中进行检索查询(说明:受限于我们的服务器,在全部语料中查询,可能需要一点响应时间,不过还在能忍受的范围之内)。

    除了关键字检索,本语料库还可以进行各种特定语言格式的查询。如果需要查询各种重叠形式,如ABB、AABB、ABAB、A一A、A了A等,请选择检索页面左边导航中的“检索重叠形式”。需要提醒注意的是,查询结果中可能会有一些伪词串,如查询“A了A”,可能会出现“八连组建了建筑工程队”“北京西站加开了开往石家庄”“并集中了中亚地区”等,这些只能由用户自己甄别。如果需要进行成对词语,如“因为……所以、虽然……但是”等的组合查询,请选择检索页面左边导航中的“成对字符串检索”。如果想查阅检索结果中某一关键字所在的原始文本,可以点击该关键字所在行右边的“查阅”。

    语料库还设计了正则表达式检索,想用但又不熟悉的朋友可以点开检索页面左边导航中的“正则表达式检索”,选择其中的“常用正则表达式”,这是一个常用正则表达式符号的说明,它可以帮助你加强检索的功能,并提高效率。

    本语料库还在检索结果页面设计了二次查询的功能,可以在第一次检索的结果中再设关键字,以得到需要的更精确的检索结果。

    为帮助研究者更方便地使用本语料库做统计分析,发现语言使用规律,语料库在检索结果页面设计了排序功能,可以根据需要对检索结果进行以关键字为中心的“左排序”或“右排序”。下面是查询关键字“奇葩”的左、右排序页面如下:

    为帮助研究者更方便地使用本语料库写作论文选择例句,语料库专门设计了检索结果保存功能,可以把检索结果全部下载保存在本地机的一个文本中,系统没有对下载的数量进行限制。保存前还设计了两个可选择的项目:是否保存出处、是否需要加序号。如果选中“保存出处”,保存结果如下例所示,其中关键字串用“【】”标出。

    敦煌飞天是中国人物画艺术中的一朵【奇葩】。(北京电视台\中华文明大讲堂\第十六讲 敦煌壁画欣赏之二:本生故事画与经变画欣赏\2008-01-24)

    总之,这是个拥有无数怪诞藏品的【奇葩】博物馆。(中央人民广播电台\中国之声\新闻纵横\2013-07-15)

     如果同时选中“加序号”,则在每个句子前面加上表顺序的数字,如下例所示:

     12敦煌飞天是中国人物画艺术中的一朵【奇葩】。(北京电视台\中华文明大讲堂\第十六讲 敦煌壁画欣赏之二:本生故事画与经变画欣赏\2008-01-24)

68 总之,这是个拥有无数怪诞藏品的【奇葩】博物馆。(中央人民广播电台\中国之声\新闻纵横\2013-07-15)

     虽然本语料库经过多次改版,但可能还有很多不尽如人意之处,在使用过程中有什么意见和建议,请及时联系我们,只要是能力可及的,我们会尽量改进。先谢谢大家了!

     最后声明:语料版权归原作者所有,本语料库仅供作学术研究之用,不得用于其他用途,否则后果自负。

     联系我们
     http://ling.cuc.edu.cn/chs/contactus.asp