- 自然语言理解与行业知识图谱:概念、方法与工程落地
- 王楠 赵宏宇 蔡月
- 207字
- 2025-02-18 05:54:01
3.1 自然语言文本特征
从文本“原材料”中,首先要获得文本数据中的语言学特征,比如词性、前后词搭配、短语组合等。这种从文本数据到特征的映射就是特征工程。随着深度神经网络的介入,特征工程不再如机器学习模型中的那样复杂,但仍然需要定义核心特征。因此,中文文本是字、词组、短语,甚至概念等多种元素的综合表示,如何将离散文本符号转换为特征成为研究的重点[1]。本书针对日常通用语言文本和行业专用语言文本,分别讨论它们的文本特征问题。