网站数据抓取(抓取网页数据工具)

1、Scrapy网站数据抓取：

网站数据抓取(抓取网页数据工具)

是一个为了爬取网站数据而编写的应用框架，可以应用在数据挖掘、信息处理或存储历史数据等一系列的程序中，是个很强大的爬虫框架，可以满足简单的页面爬取。

网站数据抓取(抓取网页数据工具)

2、Crawley：

高速爬取网站的内容，支持关系和非关系型数据库，数据可以导出为JSON、XML等。

3、Portia：

是一个开源的可视化爬虫工具，可以让使用者在不需要任何编程知识的情况下爬取网站，它是基于scrapy内核，可视化爬取内容，不需要任何开发知识。

4、newspaper：

可以用来提取新闻、文章等，使用多线程，支持10多种语言等，且所有的都是unicode编码。

5、Python-goose：

依靠Java的文章提取工具，包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

6、mechanize：

优点是可以加载JS，但也有缺点，比如文档容易缺失，不过如果使用官方的example以及人肉尝试的方法，也是勉强可以用的。

flash怎么样从所嵌套它的html网页中提取数据？

一般来说有两种方式：第一种比较简单，直接在引用的swf文件后跟get型参数，比如你要my.swf取得I=10和J=22，那么写成 my.swf?I=10&J=22 第二种复杂些，但是比较可靠：在网页里，用DW引入swf文件后，按上面的例子，在<object>标签中填加 <param name=FlashVars VALUE=\"I=10&J=22\"> 然后在embed标签里，应该有： <embed src=\"my.swf\" FlashVars=\"I=10&J=22\" quality=\"high\" ..... 如果有不明白的，可以参考下面的文章： /teach/2898.htm