文档聚类 Document Clustering
聚类是用来分析一组文档的文本属性的一种方法,根据文档之间的相似性创建分组。它帮助研究者根据文档的特征或属性,而不是根据文档内容,理解哪些文档更为相似或更为不同。
聚类可以用来确定在一个内容集中是否存在子集或分组,而这种关系通过元数据和其他筛选条件或通过其他形式的文本特征并不易被发现。例如,一个内容集中的文章可能有不同类型或不同篇幅长度,尽管它们都有共同的元数据值,但会形成不同的群组。
了解更多有关文档聚类的信息以及怎样在“Gale数字学术实验室”中使用这个工具,请点击 这里。
研究项目
Food and Civility 1650-1800 《1650-1800年的饮食与文明》