前边一段时间,曾经想做百度图片的抓取,可惜全部都是用javascript封装的,看不到网址,后来不得不转投其他搜索引擎——大神Google(里面的网址是可以直接通过源代码爬取的,只可惜对一些敏感词,搜索不到,这也使得爬取图片大打折扣),后来在网上搜索了一下,才得知需要有一些浏览器渲染引擎,才可以爬取一些含有AJAX、Javascript、CSS网页,Python 用于网站抓取 登录 发布的模块介绍(http://www.open-open.com/lib/view/1346029660489),里面比较详细的分析了Web Browser引擎,在此,不做过多的解释,webkit确实是不错的,也想过用这个,但是不能跨平台,暂时放弃,选择了Selenium,但是在配置Selenium过程中,遇到一些问题,见下:
1、selenium-server-standalone-2.35.0.jar无法下载,官网上面的链接总是找不到文件;
2、安装完selenium-2.35.0 python包后,还是无法应用
首先声明:我的安装环境是Win7+python2.7,针对第一个问题,提供下面的网址:https://code.google.com/p/selenium/downloads/list,在这个里面可以找到最新的selenium-server的jar文件,至于python的selenium包,可以再python的官网上找到,这里提供一个网址:https://pypi.python.org/pypi/selenium/,至于第二个问题,在《Selenium with Python》(https://gist.github.com/daemianmack/1099713#selenium-with-python)中提到如下:
You can download Python bindings for Selenium from the PyPI page for selenium package. It has a dependency on rdflib, version 3.1.x.
You can also use easy_install or pip to install the bindings:
easy_install selenium
or : pip install selenium
大致意思是说selenium库还依赖于另一个库rdflib,也确实如此,安装这个库之后,即可应用selenium,网址为:https://pypi.python.org/pypi/rdflib
总结步骤如下:
1. 下载selenium-2.35.0 python包:https://pypi.python.org/pypi/selenium,解压,安装,python setup.py install
2. 下载rdflib 包:https://pypi.python.org/pypi/rdflib,同样,解压,安装,python setup.py install
3. 下载selenium-server-standalone.jar,(官网上的链接不能用,很郁闷),后来找到一个链接:https://code.google.com/p/selenium/downloads/list
Java -jar selenium-server.jar来启动Selenium Server端的服务,当然,需要有java支持,才可以,需要安装java的,这个应该好找。
下面就可以试试你的selenium,是否可用了。
from selenium import webdriver,如果没有报错,那恭喜你,成功了。
下面提供几个学习selenium的网址:
1. Selenium私房菜系列:http://www.cnblogs.com/hyddd/archive/2009/05/20/1473146.html
2. Selenium中文论坛:http://seleniumcn.cn/thread.php?fid=17
3. Selenium with Python: https://gist.github.com/daemianmack/1099713