>>> from env_helper import info; info()
页面更新时间: 2024-01-23 21:48:42
运行环境:
Linux发行版本: Debian GNU/Linux 12 (bookworm)
操作系统内核: Linux-6.1.0-17-amd64-x86_64-with-glibc2.36
Python版本: 3.11.2
1.3. jieba词性标注¶
jieba.posseg.POSTokenizer(tokenizer=None)
新建自定义分词器,tokenizer
参数可指定内部使用的jieba.Tokenizer
分词器。jieba.posseg.dt
为默认词性标注分词器。标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。
除了jieba默认分词模式,提供paddle模式下的词性标注功能。paddle模式采用延迟加载方式,通过
enable_paddle()
安装paddlepaddle-tiny
,并且import
相关代码;
paddle模式词性标注对应表如下:
paddle模式词性和专名类别标签集合如下表,其中词性标签 24 个(小写字母),专名类别标签 4 个(大写字母)。
标签 |
含义 |
---|---|
n |
普通名词 |
f |
方位名词 |
s |
处所名词 |
t |
时间 |
nr |
人名 |
ns |
地名 |
nt |
机构名 |
nw |
作品名 |
nz |
其他专名 |
v |
普通动词 |
vd |
动副词 |
vn |
名动词 |
a |
形容词 |
ad |
副形词 |
an |
名形词 |
d |
副词 |
m |
数量词 |
q |
量词 |
r |
代词 |
p |
介词 |
c |
连词 |
u |
助词 |
xc |
其他虚词 |
w |
标点符号 |
PER |
人名 |
>>> import jieba.posseg as jp
>>> print(jp.lcut('转载<请>附上原文出处链接及本声明.'))
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.735 seconds.
Prefix dict has been built successfully.
[pair('转载', 'v'), pair('<', 'x'), pair('请', 'v'), pair('>', 'x'), pair('附上', 'f'), pair('原文', 'n'), pair('出处', 'v'), pair('链接', 'n'), pair('及', 'c'), pair('本', 'r'), pair('声明', 'n'), pair('.', 'x')]
>>> from jieba import enable_paddle, posseg
>>> # import paddle
>>> # paddle.enable_static()
>>>
>>> s='我今天来到l北京的清华大学。'
>>>
>>> print('精确模式:')
>>> print(posseg.lcut(s))
>>>
>>> print('paddle模式:')
>>> print(posseg.lcut(s, use_paddle=True))
精确模式:
[pair('我', 'r'), pair('今天', 't'), pair('来到', 'v'), pair('l', 'x'), pair('北京', 'ns'), pair('的', 'uj'), pair('清华大学', 'nt'), pair('。', 'x')]
paddle模式:
[pair('我', 'r'), pair('今天', 't'), pair('来到', 'v'), pair('l', 'x'), pair('北京', 'ns'), pair('的', 'uj'), pair('清华大学', 'nt'), pair('。', 'x')]