Python如何使用Spacy进行分词

小编 Python (223) 2023-05-08 08:14:59

说明

1、Spacy语言模型包含一些强大的文本分析功能，如词性标记和命名实体识别。

2、导入spacy相关模块后，需要加载中文处理包。然后读小说数据，nlp处理天龙八部小说，包括分词、定量、词性标注、语法分析、命名实体识别，用符号/分隔小说。最后，通过is_stop函数判断单词中的单词是否为无效单词，删除无效单词后，将结果写入txt文件。

实例

importspacy
importpandasaspd
importtime
fromspacy.lang.zh.stop_wordsimportSTOP_WORDS

nlp=spacy.load('zh_core_web_sm')

deffenci_stopwords(data,newdata1):
fenci=[]
qc_stopwords=[]

article=pd.read_table(data,encoding="utf-8")
start1=time.time()
withopen(newdata1,'w',encoding='utf-8')asf1:
foriinarticle["天龙八部"]:#分词
doc=nlp(i)
result1='/'.join([t.textfortindoc])
fenci.append(result1)

forjinfenci:#去除停用词
words=nlp.vocab[j]
ifwords.is_stop==False:
qc_stopwords.append(j)
result2='/'.join(qc_stopwords)
f1.write(result2)
end1=time.time()
returnend1-start1

以上就是Python使用Spacy进行分词的方法，希望对大家有所帮助。

本文教程操作环境：windows7系统、Python 3.9.1，DELL G3电脑。

THE END

发表回复取消回复

请先登录账户再评论哦

python 复数是什么意思

python regex库是什么？

Python如何使用Spacy进行分词

发表回复取消回复

相关文章阅读

python autoenv怎么用

python中如何画三维的图形？

python列表生成式的两种语法

如何用python画极坐标雷达图？

栏目最新文章

python autoenv怎么用

适合程序猿的专属代理IP

热门文章

Ip修改器的用途有哪些？

可以实现换IP的渠道有哪些呢？

代理IP在游戏中起到什么作用

代理ip能够解决什么问题？

换IP软件的操作原理是什么？

标签云

四叶天IP代理

Python如何使用Spacy进行分词

发表回复 取消回复

相关文章阅读

python autoenv怎么用

python中如何画三维的图形？

python列表生成式的两种语法

如何用python画极坐标雷达图？

栏目最新文章

python autoenv怎么用

适合程序猿的专属代理IP

热门文章

Ip修改器的用途有哪些？

可以实现换IP的渠道有哪些呢？

代理IP在游戏中起到什么作用

代理ip能够解决什么问题？

换IP软件的操作原理是什么？

标签云

四叶天IP代理

发表回复取消回复