1网站数据抓取、Scrapy:
是一个为了爬取网站数据而编写的应用框架,可以应用在数据挖掘、信息处理或存储历史数据等一系列的程序中,是个很强大的爬虫框架,可以满足简单的页面爬取。
2、Crawley:
高速爬取网站的内容,支持关系和非关系型数据库,数据可以导出为JSON、XML等。
3、Portia:
是一个开源的可视化爬虫工具,可以让使用者在不需要任何编程知识的情况下爬取网站,它是基于scrapy内核,可视化爬取内容,不需要任何开发知识。
4、newspaper:
可以用来提取新闻、文章等,使用多线程,支持10多种语言等,且所有的都是unicode编码。
5、Python-goose:
依靠Java的文章提取工具,包括:文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。
6、mechanize:
优点是可以加载JS,但也有缺点,比如文档容易缺失,不过如果使用官方的example以及人肉尝试的方法,也是勉强可以用的。
.net里怎么从数据库中提取数据显示在网页中
用控件GridView。
将GridView拖到界面,单击控件右上角三角形,系统会弹出“GridView任务”菜单;单击“选择数据源”,选择“新建数据源”,选择你的数据源类型再配置数据源。说明一下,因为没有配置过数据源,所以接下来要选择“新建连接”;之后弹出“添加链接”方框,登录到服务器有两种方法:1、使用windows身份证 2、使用SQL server身份验证;根据实际选择登录方式。接下来,在“链接到一个数据库”选择你的数据库名称。最后在“指定来自表....”配置你所需的表就OK了。。。