资源工具

2022.03

语言智能服务开放平台

自然语言处理/理解（NLP&NLU）是计算机科学领域与人工智能领域中的一个重要方向。中国传媒大学媒体融合与传播国家重点实验室语言智能服务开放平台由汉语分词、关键词提取、自动摘要、情感计算、信息抽取、文本比对、标题党识别等技术集成。目前本平台的自然语言处理模型已在华为公司的ModelArts平台上成功部署，现面向广大学者免费开放汉语分词、情感计算、自动摘要、文本比对、关键词提取、标题党识别等功能的API接口。

2019.01

媒体语言语料库(MLC)

中国传媒大学有声媒体文本语料库是一个开放、免费使用的语料库，由中国传媒大学国家语言资源监测与研究有声媒体中心开发。该语料库2003年开始建设，2005年上线，其后不断扩大语料规模，一直为研究者提供免费服务。为方便广大研究者使用，2016年语料库进行了第三次改版。这次改版主要加进了与原来语料规模相等、内容相同的熟语料，可以进行以词为单位或以词性及词性串为单位的词串检索。本语料库包括2008至2013六年的34,039个广播、电视节目的转写文本，总字符数为241,316,530个，总汉字数为200,071,896字次。所有文本都进行了分词和词性标注，共计135,767,884词次。为保证语料的典型性和代表性，每年都尽可能选择那些流通度大、年度间又有一定连续性的节目文本；为便于研究者做6年间的历时语言调查，各年度的语料规模尽可能平衡。本语料库所有语料都进行了元数据标注，既可以利用全部2亿字语料进行检索，也可以根据研究需要选定检索范围。方法是在首页右上角导航中点击"选择检索范围”，在下拉菜单中选定相应的属性项。本语料库可进行特定时间段（如2008年度、2010至2013年度）、特定媒体（广播、电视）、特定单位（如中央电视台、北京电视台、中央人民广播电台）、特定语言形式（独白、对话）、特定语体（独白形式可分为播报、谈话、解说、朗读；对话形式可分为二人谈、三人谈、多人谈）、特定领域（如新闻、经济、军事）、特定栏目（如《新闻联播》《鲁豫有约》《新闻与报纸摘要》）、特定主持人（如白岩松、陈鲁豫、崔永元）等范围的关键字检索。各属性之间有级联关系，既可以进行单独属性锁定查询，也可以进行属性间组合查询。如果“媒体”项选定了“广播”，不选择其他，就意味着下面的检索将在所有的广播语料中进行；如果“媒体”项选定了“广播”，那么在栏目项中只能选择广播的节目，不会再出现“新闻联播”这样的电视中的节目名称。如果所有的属性都没有选择，那就意味着将在全部2亿字次的语料中进行检索查询。

2019.01

在线分词标注系统(CUCBst)

在线分词标注系统（http://ling.cuc.edu.cn/cucseg/）有三组选项，分别是"切分颗粒度选项”、“词性输出选项”和“标记集选项”。切分颗粒度选项: “切分颗粒度选项”有两个选项值，分别是“粗粒度”和“细粒度”。这两个选项值的主要区别表现在以下几个方面：汉族（包括日本、韩国人名中能明显识别出姓和名的）人名中姓和名的分合组合型机构名、地名和其他专名的分合组合型时间表达式的分合组合型数字表达式的分合组合型量词表达式的分合 1）“细粒度” 指按较小颗粒度原则进行切分，上述几项都切开。如汉族人名切成“李/snr 玉山/nr”；组合型机构名切成“北京/ns 大学/n”；组合型地名切成“湖南省/ns 长沙市/ns”；组合型其他专名切成“人民/n 日报/n”；组合型时间表达式切成“今天/t 下午/t”；组合型数字表达式切成“三/m 百/m 二/m 十/m 一/m”；组合型量词表达式切成“元/q ／/w 平方米/q”。 2）“粗粒度” 指按较大颗粒度原则进行切分，上述几项都不再切开。如汉族人名切成“李玉山/nr”；组合型机构名切成“北京大学/nt”,组合型地名切成“湖南省长沙市/ns”；组合型其他专名切成“人民日报/nz”；组合型时间表达式切成“今天下午/t”；组合型数字表达式切成“三百二十一/m”；组合型量词表达式切成“元／平方米/q”。词性输出选项: 由于一个单词可能有多个兼类词性，因而设置了“词性输出选项”，该选项有三个值，分别是“单词性”、“所有词性”和“无词性”。 1）“单词性” 指每个单词只标注一个词性，这个词性就是分词系统为单词选择的最佳词性。 2）“所有词性” 如果切分结果中一个单词有多个兼类词性，则在小括号中显示该单词的全部兼类词性。例如，“的”字的切分结果可能显示为“的/u(Dg-Ng-u)”。“的”字后面的“/u”表示该切分中确定的词性，而小括号中的“Dg-Ng-u”包括了“的”字的所有兼类词性，不同词性之间用‘-’分隔。 3）“无有词性” 输出切分结果中不包含词性。

2019.01

新词语研究资源库

新词语研究资源库是一个集研究对象和研究文献与一体的综合性资源库。它的综合性表现在对研究对象和研究文献的兼收并蓄。研究对象是指新词语和新词语出现的环境语料，其中，新词语在资源库中具体表现为新词语词典收入的新词语词条，新词语出现的环境语料具体表现为国家语言资源监测与研究有声媒体中心的有声传媒语料库；研究文献则包括以新词语为研究对象的新词语词典、文章和专著。新词语研究资源库是一个动态的资源库。它的动态性是指资源库是一个开放的数据库，随着新的词语的出现和对新词语研究的深入，我们都会以一定的周期向资源库追加新的词语信息和新的研究文献，保持资源库和新词语的发展和研究现实同步，以满足使用者的使用需求。新词语研究资源库主要分为新词语词库、研究文献库、传媒语言语料库和传媒语料库词汇历时变化图表四个部分，其中词库、文献库是本资源库建设的重点内容，传媒语言语料库和词汇历时变化图表两部分主要是借用了国家语言资源监测与研究有声媒体中心的已有建设成果。

2019.01

国家语言文字舆情数据库

本数据库是在国家语委支持下开发的一个动态、实时滚动建设的网络版资源库，通过注册方式免费与相关机构及研究人员共享。所有信息均来源于中国传媒大学国家语言资源监测与研究有声媒体中心开发的语言文字舆情监测系统CUClpms每日实时在网络上采集的文本，主要包括2012年4月以来网络上出现的有关语言文字舆情的信息，有新闻评论，也有博客和微博。截至2017年9月，该库中已存有340,207个文本，324,903,518汉字数。为方便研究，本库专门建立了热点话题子库，热点话题动态生成，目前有59个。本库具有较强的统计分析功能，可以查询、检索不同时段的舆情信息，实现热点话题的实时发现、热点话题的倾向性分析以及热点话题的跟踪调查。具体使用请看"使用说明”。该库中所有语料版权归原作者所有。本数据库仅供作学术研究之用，不得用于其他用途，否则后果自负。

2019.01

百年音视频样本数据库

百年音视频样本数据库包含了近百年来电影、电视、广播和曲艺在内的诸多音视频语料。首次历史地、全景式地描绘了现代汉语普通话近百年来的发展概貌。一些散落民间的、濒临散失的珍贵有声语料得以保存，为建构普通话数字化博物馆奠定了基础。目前数据库公开展示的是3680段音视频文件，后续将不断增添新的内容，为广大声音爱好者及研究者提供了珍贵的平台资源。百年音视频样本数据库建设始于2007年，至今已有14个年头。从上个世纪五六十年代的新闻纪录片数据到八十年代的广播电视样本语料，那些渐渐淡出人们记忆中的声音，记录了我国近百年的"声音历史”。