搜索资源列表
classifier-1.12
- 能对从Google中搜索出来的文本进行聚类,提供了Java包,及调用源代码.-can right from the Google Search for the text clustering, a Java package, source code and call.
clusty.tar
- 聚类分析的文本组合 压缩文件用于聚类分析的数据处理-cluster analysis of the text composition compressed files for Cluster Analysis of Data Processing
kmeansjulei
- 这是用VC++编写的K_means 聚类算法的程序,详细的运行说明在文件夹的文本说明里!-This is the preparation of the VC K_means clustering algorithm procedures, a detailed statement of the operation folder notes to the text!
wenbenwajue1232
- 关于文本挖掘的摘要,对各种聚类算法进行了分析,是个好的东西-on Text Mining summary of the various clustering algorithms to the analysis is a good thing
2007Z
- 语义平滑文件模式聚类,代表了文本挖掘的前沿技术,和热门方向(英语原版)-semantic document clustering model, the representative of the Text Mining of advanced technology, and popular direction (English original)
HLSSplit.RAR
- 关键词抽取技术广泛应用于信息检索、文本分类/聚类、信息过滤
SurveyTextMining
- 这是一本关于文本挖掘的书籍,包括聚类 分类 信息提取的内容
KMEANSII
- 神经网络中的K均值聚类算法II: 1.KMIn为输入数据文本,其中,第一个参数为所要聚类点个数,第二个参数为聚类点的维数,第三个参数为所要求聚类的个数 2.KM2OUT为经过K均值聚类算法II计算后得到的结果
LHY
- 文本统计与识别的代码 用到了聚类的算法 是统计课程的大作业
GetFileTimes
- 用java编写的tf*idf 结果输出txt文本,方便作后来的聚类矩阵
cluster_algorithm
- 包括分解聚类算法和k-均值聚类算法,内有用到的数据文本文件,开发环境Visual Studio .NET2003
the_application_of_clustering
- 这是一篇讲述聚类在文本挖掘中的应用的博士论文,个人认为讲述的还是比较细的.
VSM
- 用TFIDF和特征增益两种方式实现了特征向量空间的建立,将文本文件表示成特征向量的形式,为接下来的聚类做了准备。程序用JAVA写成。
cluster
- 提出了一种基于语义内积空间模型的文本 聚类算法. -Text proposed clustering algorithm within the semantic model based on the product space.
words_1025_dic.txt
- dbscan,暂时不要下载,有误,回头整理(dbscan and word2vec for chinese words)
Kmeans
- 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现(Algorithm idea: extract the TF/IDF weight of the document, then calculate the distance between two multidimensional vectors by cosine theo
English
- 包括了原始英文文档、删除特殊符号、分词、词干化、计算相似度等文本预处理后产生的文档,总的数量是500个英文文档(Including the original English document, delete special symbols, such as text segmentation, a preprocessed documents produced, the total number of 500 English docum
EnglishChuLi
- 利用python编写的文本预处理的程序,包含了每一步的实现代码,分为删除标点符号、删除停用词、相似度计算、PCA降维、聚类以及可视化等,运行环境为pytharm,python3开发环境(The text preprocessing program written by Python contains every step of implementation code, which is divided into delete punct
ChineseChuLi
- 中文文本处理的python程序,包括分词、删除特殊字符、删除停用词、爬虫程序、PCA降维、Kmean聚类、可视化等(Python programs for Chinese text processing, including participle, deleting special characters, deleting disuse words, crawler programs, PCA dimensionality reduct
协同过滤算法
- 文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。(Text clustering document clustering is based on t