搜索资源列表
BFFetch
- C#编写的网页内容抓取工具,多线程采集,效率很高-C# Prepared crawler web content, multi-threaded collection, high efficiency
ib
- linux下的网页抓取与分析源码,可以实现在linux下的网页抓取,并呈现网页header的分析报的功能-linux web pages to crawl under the source and analysis can be achieved in the page was crawled under linux, and the page header analysis reported functional
nicewords_2.0.0128_for_3790_4659.tar.dezend_cc_php
- Nicewords-Dzend版 Nicewords是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、分词技术和网页萃取技术,结合白帽SEO(规避了一切风险的搜索引擎优化),利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、自动更新的WEB智能建站系统。利用NiceWords智能建站系统,只需要在配置页面上设置几个关键词,NiceWords就能全自动
analyzer
- 一个简单的网页分析器 系统需求: 1. 编写Socket客户端访问WEB服务器,获取网页至本地硬盘; 2. 分析第1步中抓取的网页内容,找出所有图片链接URL信息。3. 统计第1,第2步中下载文件(包括网页文件与图片文件)的大小(即字节数和); 4. 统计第1,第2步所消耗的时间和; 5. 在屏幕上打印该WEB网页的访问速度(bytes/second) = 下载文件总大小/下载总耗时。-A simple web page analy
getMIMA
- 抓取网页密码,很有意思的程序,值得下载。-Crawl page password, very interesting process, it is worth downloading.
ngetweb
- 网页抓取简单源代码 定时抓取、下载保存。-Simple source code of web pages crawled regularly crawl, download preservation.
dl
- [功能] 本源码是一个因特网下载工具。他可以扫描整个网站的页面及各种图片音频视频等资源,你可以给这些待下载的资源设定最小的大小。 程序还使用了一个剪切板钩子(HOOK),使用它监控任何拷贝到剪切板中的文字,如果你复制了一个URL网页链接或者是一个URL的图片等链接,程序会立即弹出一个对话框让你配置下载任务。 用户可以通过设置文件名和文件大小,来下载整个站点的资源,或限制下载图片等等。 本质上来说,这是一
tse
- 北京大学网络实验室出品的Tiny Search Engine,“微型搜索引擎源代码”。 包括网页抓取、索引生成等模块,可以看做北大天网的袖珍版。 强烈推荐想要详细了解搜索引擎原理的朋友们学习借鉴。-University network laboratory production of Tiny Search Engine,
WebSpider
- 用C#编写的多线程抓取网页的“爬虫”程序-With C# Prepared multi-threaded web crawler "reptiles" procedure
ss
- 网页抓取器又叫网络机器人(Robot)、网络爬行者、网络蜘蛛。网络机器人(Web Robot),也称网络蜘蛛(Spider),漫游者(Wanderer)和爬虫(Crawler),是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。他们能自动漫游与Web站点,在Web上按某种策略自动进行远程数据的检索和获取,并产生本地索引,产生本地数据库,提供查询接口,共搜索引擎调用。-asp
Spider
- 实现网络应用上所有的 网页抓取、功能强大、-Network applications to crawl all the pages, powerful,
Java
- 是用纯Java开发的,用来进行网站镜像抓取的工具,可以使用配制文件中提供的URL入口,把这个网站所有的能用浏览器通过GET的方式获取到的资源全部抓取到本地,包括网页和各种类型的文件,如:图片、flash、mp3、zip、rar、exe等文件。可以将整个网站完整地下传至硬盘内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如:Apache)中,就可以实现完整的网站镜像。-Is developed in pure
ImagesGetter
- 网页图片抓取,JSP开发,主要思想是正则表达式-Web Images crawl, JSP development, the main idea of regular expressions
linyunzuiqiangyuan
- 可以保存剪切板历史文本(最大3000项),可以快速填序列号,也可上网填表格,还能自动抓取网页文本,快速打开文件夹,快速打开网络地址,小型个人数据管理,显示桌面,支持系统托盘,有delphi7源码,我试用过华军所有同类软件,这是最好的,我自信,我发现了一个所有剪切板软件共有的巨大漏洞,详细见我的帮助文件。-History can be saved clipboard text (maximum 3000), can quickly fil
linyunzuiqiangyuan2090803
- 可以保存剪切板历史文本(最大3000项),可以快速填序列号,也可上网填表格,还能自动抓取网页文本,快速打开文件夹,快速打开网络地址,小型个人数据管理,显示桌面,支持系统托盘,有delphi7源代码,我试用过华军所有同类软件,这是最好的,我自信,我发现了一个所有剪切板软件共有的巨大漏洞,详细见我的帮助文件。-History can be saved clipboard text (maximum 3000), can quickly fi
FinanceApp
- Java写的网页内容抓取程序,从google finance上抓取股票相关内容,需要手动输入正确的股票代码-Java to write web content crawling process, crawling from the google finance stock-related content on the need to manually enter the correct ticker symbol
Ex1404
- 一个网页抓取软件,是MFC环境下的,联网可以抓取指定网页-A web crawling software is MFC environment
wininet-spider
- 网络爬虫,完美演示了多线程和深度设置抓取网页数据。-crawl through internet to get web data. the win32 api supports applications that are pre-emptively multithreaded. this is a very useful and powerful feature of win32 in writing mfc internet sp
kuaso
- 仿百度搜索引擎软件蜘蛛组件包括三大功能模块:链接采集、网页分析、无效网页扫描; 自动识别GB2312、BIG5、UTF-8、Unicode等网页编码; 文件类型证察防止非文本类型文件采集; 蜘蛛可以采集ASP、PHP、JSP等动态数据网页和HTML、SHTML、XHTML等静态网页; 支持续采功能,如果因系统、网络等故障问题终止采集,系统将在下次启动采集时提示您是否“继续采集”或“结束任务”; 采集任务
spider
- 网络爬虫,主要根据种子网页抓取连接的网页-spider