1 广州开放大学(广州市广播电视大学)数字化服务中心, 广东 广州 510000
2 暨南大学信息科学技术学院, 广东 广州 510000
微博文本数据高维度、同义、多义特征明显, 传统基于向量空间模型 (VSM)联合 K-均值的热点话题发现方法存在准确率低, 计算复杂, 聚类中心难以确定等问题。提出一种相关向量机 (RVM)优化 VSM的微博文本向量化方法, 首先利用 RVM的自适应特征选择能力对 VSM特征向量进行降维, 然后利用主成分分析 (PCA)方法确定 K-均值算法的初始聚类中心, 进而采用 K-均值算法得到聚类结果, 最后根据微博转发、评论和高影响力用户数量定义热度指数, 热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验, 结果表明所提方法相对于 2种传统方法的准确率分别提升 7.3%和 1.1%, 实时性分别提升 45%和 53%。
热点话题发现 向量空间模型 话题聚类 数据降维 微博 hot topic detection Vector Space Model topic clustering data dimensionality reduction Micro-blog 太赫兹科学与电子信息学报
2023, 21(3): 378
中国海洋大学光学光电子实验室, 山东 青岛 266100
向量空间模型最初用于文献检索, 该模型是通过对文献内容进行特征文本提取后, 将文献转换到文本向量空间, 然后在文本向量空间中通过计算文献的特征文本向量与检索文本的特征文本向量的相似度, 实现文献的检索, 该方法基于模式识别中模板匹配的最近邻原则。 针对光谱数据的特点和模式识别中模板匹配的基本原则, 将向量空间模型引入基于样品光谱的分类识别。 通过训练集中光谱数据获得各样品的光谱数据模板, 提取训练集中各样品光谱数据模板特征峰的波长和相对强度信息, 构建特征峰信息数据库, 计算获得特征峰信息权值, 将光谱数据转换到特征峰向量空间, 获得各样品光谱数据模板的特征峰向量, 构建样品特征峰向量数据库。 同理获得预测集样品光谱的特征峰向量, 在特征峰向量空间中通过计算预测集样品特征峰向量与样品特征峰向量数据库中各样品模板特征峰向量的余弦值, 完成对预测集样品的分类识别。 以岩屑样品的LIBS光谱为研究对象, 将向量空间模型应用于LIBS光谱的分类识别。 分类结果表明, 该方法能够实现对岩屑样品LIBS全谱的快速分类识别, 且在对预测集光谱数据进行平均处理后, 分类准确率为100%。 提出的基于向量空间模型的LIBS光谱分类方法可以拓展应用于其他光谱数据的分类识别。
激光诱导击穿光谱 向量空间模型 岩屑 分类识别 Laser-induced breakdown spectroscopy Vector space model Geological cutting Identification 光谱学与光谱分析
2017, 37(9): 2891