在线分词标注系统简要说明

 

本系统有三组选项,分别是“切分颗粒度选项”、“词性输出选项”和“标记集选项”。

 

切分颗粒度选项:

“切分颗粒度选项”有两个选项值,分别是“粗粒度”和“细粒度”。这两个选项值的主要区别表现在以下几个方面:

l        汉族(包括日本、韩国人名中能明显识别出姓和名的)人名中姓和名的分合

l        组合型机构名、地名和其他专名的分合

l        组合型时间表达式的分合

l        组合型数字表达式的分合

l        组合型量词表达式的分合

1)“细粒度”

指按较小颗粒度原则进行切分,上述几项都切开。如汉族人名切成“李/snr 玉山/nr”;组合型机构名切成“北京/ns 大学/n”;组合型地名切成“湖南省/ns 长沙市/ns”;组合型其他专名切成“人民/n 日报/n”;组合型时间表达式切成“今天/t 下午/t”;组合型数字表达式切成“三/m /m /m /m /m”;组合型量词表达式切成“元/q /w 平方米/q”。

2)“粗粒度”

指按较大颗粒度原则进行切分,上述几项都不再切开。如汉族人名切成“李玉山/nr”;组合型机构名切成“北京大学/nt,组合型地名切成“湖南省长沙市/ns”;组合型其他专名切成“人民日报/nz”;组合型时间表达式切成“今天下午/t”;组合型数字表达式切成“三百二十一/m”;组合型量词表达式切成“元/平方米/q”。

 

词性输出选项:

由于一个单词可能有多个兼类词性,因而设置了“词性输出选项”,该选项有三个值,分别是“单词性”、“所有词性”和“无词性”。

 

1)“单词性”

指每个单词只标注一个词性,这个词性就是分词系统为单词选择的最佳词性。

2)“所有词性”

如果切分结果中一个单词有多个兼类词性,则在小括号中显示该单词的全部兼类词性。例如,“的”字的切分结果可能显示为“的/u(Dg-Ng-u)”。“的”字后面的“/u”表示该切分中确定的词性,而小括号中的“Dg-Ng-u”包括了“的”字的所有兼类词性,不同词性之间用‘-’分隔。

3)“无有词性”

输出切分结果中不包含词性。

 

标记集选项:

本系统为切分结果提供了不同词性标记集的选择,可选的词性标记集有“CUC(中传)”词性标记集和“PKU(北大)”词性标记集。

 

1)“CUC(中传)”

使用中国传媒大学国家语言资源监测与研究有声媒体中心制定的词性标记集,该标记集以北京大学计算语言学研究所制定的切分标记集为基础,并在此基础上进行了细分,个别地方略有改动,详情请见下表尾部的说明。

2)“PKU(北大)”

使用北京大学计算语言学研究所制定的词性标记集。

下面是词性标记集对照表。

 

 

在线分词标注系统词性标记集对照表

 

序号

标记名称

PKU(北大)

标记

标记名称

CUC(中传)

标记

样例

1

普通名词

n

普通名词

n

人、天、桌子、风格、精神、动作

2

方位词

f

方位词

f

上、下、内、外、之前、以后、以来

3

人名

nr

姓氏

snr

李、赵、郭、欧阳、诸葛、田中

人名

nr

张晓峰、卓玛、约翰逊、姿三四郎

4

地名

ns

地名

ns

法国、北京、湖南、哈尔滨、北极村

5

机构名

nt

机构名

nt

国务院、北京大学、朝阳医院

6

专名

nz

产品名

nq

诺基亚手机、歼-15战斗机

其他专名

nz

人民日报、金棕榈奖、劳斯莱斯

7

时间词

t

时间词

t

今天、2008年、五月、明朝

8

处所词

s

处所词

s

地区、岸边、岸上、半空、北方

9

动词(包括vd、vn)

v

动词

v

跑、看、写、研究、商量、学习

动词重叠式(1)

vv

看看、写写、研究研究、商量商量

动词重叠式(2)

vyv

看一看、写一写、放一放

动词重叠式(3)

vlv

看了看、写了写、研究了研究

动词重叠式(4)

vlyv

看了一看、写了一写、研究了一研究

动词重叠式(5)

vbv

写不写、看不看、喜欢不喜欢

动词重叠式(6)

vmv

写没写、看没看、讨论没讨论

动词重叠式(7)

vvo

跑跑步、洗洗澡、散散步、聊聊天

动词疑问缺损式

vvq

愿不愿意、相不相信、知不知道

离合动词分离时

v1/v2

理/v1 了/u 一/m 次/q 发/v2

趋向动词分离时

vq1/vq2

抬/v 起/vq1 头/n 来/vq2

10

形容词(包括ad、an)

a

形容词

a

白、干净、美丽、伟大、丑陋

形容词重叠式(1)

aa

白白(的)、干干净净、清清楚楚

形容词重叠式(2)

aba

白不白、好不好、干净不干净

形容词重叠式(3)

ala

马里马虎、古里古怪、土里土气

形容词疑问缺损式

aaq

干不干净、漂不漂亮、高不高兴

11

区别词

b

区别词

b

男、女、长期、共同、袖珍、大型

12

状态词

z

状态词

z

碧绿、干瘦、拉拉扯扯、静悄悄

状态词重叠式

zz

碧绿碧绿、干瘦干瘦、冰冷冰冷

13

代词

r

代词

r

这、那、你、我、什么、怎么、每

代语素

Rg

予、尔

14

数词

m

数词

m

一、二、十、百、千、零、甲、乙

数词重叠

mm

千千万万

数量词

mq

很多、许多、大量、部分

数量词重叠

mmq

很多很多、许许多多

数语素

Mg

午、亥、酉、庚

15

量词

q

量词

q

个、张、条、根、项、册、次、趟

量词重叠式(1)

qq

个个、条条、次次、趟趟

量词重叠式(2)

qqy

一个个、一次次、一阵阵

量词重叠式(3)

qqm

一个一个、一次一次

16

副词

d

副词

d

就、又、都、已经、仅仅

副词重叠

dd

非常非常、特别特别、逐渐逐渐

17

连词

c

连词

c

和、而、而且、那么

18

介词

p

介词

p

把、在、从、被、比

19

助词

u

助词

u

的、地、得、所、被

20

语气词

y

语气词

y

了、吧、吗、呢、啊

21

拟声词

o

拟声词

o

哗啦、轰隆、叮叮当当

22

叹词

e

叹词

e

哎呀、啊、唉、哦

23

前缀

h

前缀

h

第、老、小、初、软、超、亚

24

后缀

k

后缀

k

者、家、性、率、感、度、儿

25

不明词语

x

不明词语

x

26

缩略语

j

地名缩略

jns

京、津、沈、黑、辽

机构名缩略

jnt

首钢、北大、上外、中传

名词性缩略

jn

非典

动词性缩略

jv

反恐

区别性缩略

jb

大中型、中西式

27

成语

i

名词性成语

in

血雨腥风、八拜之交、鹤发童颜

动词性成语

iv

朝思暮想、爱屋及乌、班门弄斧

形容性成语

ia

安分守己、八面玲珑、斑驳陆离

副词性成语

id

成年累月、日以继夜

28

习语

l

话语标记

ldm

老实说、一言以蔽之、据说、按理说

名词性惯用语

lgn

大锅饭、马后炮、闷葫芦、泥腿子

动词性惯用语

lgv

走后门、穿小鞋、开绿灯

副词性惯用语

lgd

一股脑、一而再再而三

谚语格言

ly

三个臭皮匠,顶个诸葛亮

名词性习语

ln

阿猫阿狗、阿Q精神、鞍马之劳

动词性习语

lv

开胸验肺、拔得头筹、白头相守

形容词性习语

la

百年不衰、半大不小、半文不白

副词性习语

ld

挨门逐户、不怎么、从始至终

时间性习语

lt

有日子、从古到今、从今以后

29

名语素

Ng

名语素

Ng

厢、锤、淀、衫

30

动语素

Vg

动语素

Vg

骇、殇、睨、贺

31

形语素

Ag

形语素

Ag

聪、瘠、韧、姣

32

副语素

Dg

副语素

Dg

倏、枉、径、弗

33

时间语素

Tg

时间语素

Tg

元、昼、昨、昔

34

标点符号

w

标点符号

w

, 。 ! ?

说明:

1. 中传(CUC)统标记集中共有76个标记,北大(PKU)系统标记集中共有39个标记,本表旨在将两个系统的标记形成映射关系。

2. 北大标记集中的副形词ad、名形词an,副动词vd、名动词vn属于动态词类属性,在提取常用词表时无法使用,且汉语中动词、形容词做状语是其常见功能,动词、形容词的名物化又属于争议比较大的问题,在具体操作中有较大困难,故本标记集不区分这四种属性,将其分别归入形容词(ad、an→a)和动词(vd、vn→v)

3.北大标记集中的语素g在实际切分标注中无法操作,因为在标注过程中,每一个可以确定的语素一定具有某种词类属性,如名词性的(Ng)、动词性的(Vg)等等,不具有某一词类属性的语素不存在。故本标记集不设这一标记。

4. 鉴于上述,中传标记集中的76类标记将分别映射到北大标记集的34类标记中,如表所示。