网站数据抓取(抓取网页数据工具)

1、Scrapy网站数据抓取:

网站数据抓取(抓取网页数据工具)

是一个为了爬取网站数据而编写的应用框架,可以应用在数据挖掘、信息处理或存储历史数据等一系列的程序中,是个很强大的爬虫框架,可以满足简单的页面爬取。

网站数据抓取(抓取网页数据工具)

2、Crawley:

高速爬取网站的内容,支持关系和非关系型数据库,数据可以导出为JSON、XML等。

3、Portia:

是一个开源的可视化爬虫工具,可以让使用者在不需要任何编程知识的情况下爬取网站,它是基于scrapy内核,可视化爬取内容,不需要任何开发知识。

4、newspaper:

可以用来提取新闻、文章等,使用多线程,支持10多种语言等,且所有的都是unicode编码。

5、Python-goose:

依靠Java的文章提取工具,包括:文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

6、mechanize:

优点是可以加载JS,但也有缺点,比如文档容易缺失,不过如果使用官方的example以及人肉尝试的方法,也是勉强可以用的。

flash怎么样从所嵌套它的html网页中提取数据?

一般来说有两种方式: 第一种比较简单,直接在引用的swf文件后跟get型参数,比如你要my.swf取得I=10和J=22,那么写成 my.swf?I=10&J=22 第二种复杂些,但是比较可靠: 在网页里,用DW引入swf文件后,按上面的例子,在<object>标签中填加 <param name=FlashVars VALUE=\"I=10&J=22\"> 然后在embed标签里,应该有: <embed src=\"my.swf\" FlashVars=\"I=10&J=22\" quality=\"high\" ..... 如果有不明白的,可以参考下面的文章: /teach/2898.htm