媒体语言词汇历时变化图表系统说明
    媒体语言词汇历时变化图表是一个开放、免费使用的系统,该系统运行于中国传媒大学媒体语言语料库之上,由中国传媒大学国家语言资源监测与研究有声媒体中心开发。系统可以对用户输入的关键字在语料库中进行查找,得到所查找关键字在一定时间范围内按月或按年出现的频次、文本数、天数等信息,并以柱状图表的方式呈现给用户,也可以用表格的方式给用户提供详细的数据,这些数据从不同方面反映了所查找关键字在查找时间范围内的历时变化情况。
    中国传媒大学媒体语言语料库是一个动态的语料库,包括了自 2004 年到 2022 年为止的广播电视文本 754679 个,约 20.61 亿 字。其规模每年都在增加,各年度语料规模如下表。
媒体语言语料库各年度(2004-2022)语料规模
年份文本数字符数(byte)
200411,24194,475,420
20057,90460,150,150
200613,742124,231,935
200721,852201,775,735
200819,951229,978,303
200917,690211,175,479
201020,491237,746,466
201120,006236,829,494
201220,303239,763,463
201319,049235,108,874
201422,192232,069,234
201519,444232,754,365
201617,417274,019,825
20179,010192,457,049
201824,189112,886,063
201957,390199,024,283
202066,266166,199,259
2021124,862268,582,439
2022241,680439,634,520
合计754,6793,988,862,356
一、系统功能介绍

    系统主界面如图1所示:

图1. 媒体语言词汇历时变化图表主界面
在系统主界面中,各个选项的意义如下:
查询词条: 在文本框中输入要查询的关键字,例如在图1中输入了关键字“奥运”。
统计项目: 选取要统计的项目,目前可以统计的项目有3项,分别是“词频”、“文本数”和“出现天数”。缺省的统计项目是“词频”和“文本数”。
统计精度: 统计精度可以分为按月统计和按年统计。
时间范围: 选取要统计的时间区间。

    在输入了查询词条并选取了各参数后,点击“生成统计图”按钮,在新打开的网页中将以柱状图的形式向用户呈现查询的结果(词汇历时变化分布图),如图2所示:


图2. 词汇历时变化分布图
    如果要想得到图表中显示的详细数据,点击“查看详细数据”按钮,在新打开的网页将以表格方式显示查询得到的详细数据,如图3所示:


图3. 词汇历时变化详细数据
二、声明
    1. 本系统所使用的语料源自各电视台和广播电台节目的播出文本,版权属原作者,本系统仅作学术研究用,如使用者违反此原则,责任自负。
    2.本系统版权属于中国传媒大学国家语言资源监测与研究有声媒体中心,请使用者在研究成果中做出声明。