媒体语言词汇历时变化图表系统说明
媒体语言词汇历时变化图表是一个开放、免费使用的系统,该系统运行于中国传媒大学媒体语言语料库之上,由中国传媒大学国家语言资源监测与研究有声媒体中心开发。系统可以对用户输入的关键字在语料库中进行查找,得到所查找关键字在一定时间范围内按月或按年出现的频次、文本数、天数等信息,并以柱状图表的方式呈现给用户,也可以用表格的方式给用户提供详细的数据,这些数据从不同方面反映了所查找关键字在查找时间范围内的历时变化情况。
中国传媒大学媒体语言语料库是一个动态的语料库,包括了自
2004
年到
2022
年为止的广播电视文本
754679
个,约
20.61 亿
字。其规模每年都在增加,各年度语料规模如下表。
媒体语言语料库各年度(2004-2022)语料规模
年份
文本数
字符数(byte)
2004
11,241
94,475,420
2005
7,904
60,150,150
2006
13,742
124,231,935
2007
21,852
201,775,735
2008
19,951
229,978,303
2009
17,690
211,175,479
2010
20,491
237,746,466
2011
20,006
236,829,494
2012
20,303
239,763,463
2013
19,049
235,108,874
2014
22,192
232,069,234
2015
19,444
232,754,365
2016
17,417
274,019,825
2017
9,010
192,457,049
2018
24,189
112,886,063
2019
57,390
199,024,283
2020
66,266
166,199,259
2021
124,862
268,582,439
2022
241,680
439,634,520
合计
754,679
3,988,862,356
一、系统功能介绍
系统主界面如图1所示:
图1. 媒体语言词汇历时变化图表主界面
在系统主界面中,各个选项的意义如下:
查询词条:
在文本框中输入要查询的关键字,例如在图1中输入了关键字“奥运”。
统计项目:
选取要统计的项目,目前可以统计的项目有3项,分别是“词频”、“文本数”和“出现天数”。缺省的统计项目是“词频”和“文本数”。
统计精度:
统计精度可以分为按月统计和按年统计。
时间范围:
选取要统计的时间区间。
在输入了查询词条并选取了各参数后,点击“生成统计图”按钮,在新打开的网页中将以柱状图的形式向用户呈现查询的结果(词汇历时变化分布图),如图2所示:
图2. 词汇历时变化分布图
如果要想得到图表中显示的详细数据,点击“查看详细数据”按钮,在新打开的网页将以表格方式显示查询得到的详细数据,如图3所示:
图3. 词汇历时变化详细数据
二、声明
1. 本系统所使用的语料源自各电视台和广播电台节目的播出文本,版权属原作者,本系统仅作学术研究用,如使用者违反此原则,责任自负。
2.本系统版权属于中国传媒大学国家语言资源监测与研究有声媒体中心,请使用者在研究成果中做出声明。