什么是 Tokenised 中文?
在自然语言处理(NLP)中,“Tokenisation”(分词)是将连续文本切分为有意义单元(称为“token”)的过程。 对于英文等以空格分隔单词的语言,分词相对简单;但中文没有天然的词边界,因此需要专门的算法进行中文分词。
为什么中文分词很重要?
中文分词是以下任务的基础:
- 机器翻译
- 情感分析
- 搜索引擎索引
- 语音识别与合成
- 问答系统与聊天机器人
常见的中文分词工具
开发者常用开源工具包括:
- jieba(Python):最流行的中文分词库
- THULAC(清华大学)
- PKU Segmentor
- HanLP:支持多语言的 NLP 工具包
示例:中文 vs 英文分词
英文原文: "I love natural language processing."
英文 tokens: ["I", "love", "natural", "language", "processing", "."]
中文原文: “我爱自然语言处理。”
中文 tokens(可能结果): ["我", "爱", "自然语言", "处理", "。"]