1、教你用Python写一个爬虫,免费看小说
这是一个练习作品。用python脚本爬取上面的免费小说。
环境:
类库:
数据源:
原理就是伪装正常http请求,正常访问网页。然后通过bs4重新解析html结构来提取有效数据。
包含了伪装请求头部,数据源配置(如果不考虑扩展其他数据源,可以写死)。
文件
文件
文件
文件
文件
暂没有做数据保存模块。如果需要串起来做成一个完整的项目的话,只需要把小说数据结构保存即可(节省磁盘空间)。通过小说url可以很快速的提取出小说简介、目录、每一章的正文。
如果想要做的更好,可以把目录,介绍、正文等部分缓存起来,当然得有足够的空间。
2、Python爬取小说返回的网页内容中没有小说内容?
因为这里是动态加载的内容,而你用普通的方法爬取的网页只能爬渠道静态的内容。
所以你需要模仿真正的浏览器,而不是仅仅请求这个页面的内容。
详细内容可以在网上搜索以下,毕竟这里我也没法给你详细解说。
加油!
python天下第一
3、怎么用python爬sf轻小说文库的vip章节小说
你需要先购买vip,不然的话是爬不了的,除非系统有漏洞,记住爬虫不是万能的
步骤一:研究该网站
打开登录页面
进入以下页面“”。你会看到如下图所示的页面(执行注销,以防你已经登录)
仔细研究那些我们需要提取的详细信息,以供登录之用
在这一部分,我们会创建一个字典来保存执行登录的详细信息:
1.右击“Usernameoremail”字段,选择“查看元素”。我们将使用“name”属性为“username”的输入框的值。“username”将会是key值,我们的用户名/电子邮箱就是对应的value值(在其他的网站上这些key值可能是“email”,“user_name”,“login”,等等)。
2.右击“Password”字段,选择“查看元素”。在脚本中我们需要使用“name”属性为“password”的输入框的值。“password”将是字典的key值,我们输入的密码将是对应的value值(在其他网站key值可能是“userpassword”,“loginpassword”,“pwd”,等等)。
3.在源代码页面中,查找一个名为“csrfmiddlewaretoken”的隐藏输入标签。“csrfmiddlewaretoken”将是key值,而对应的value值将是这个隐藏的输入值(在其他网站上这个value值可能是一个名为“csrftoken”,“authenticationtoken”的隐藏输入值)。列如:“”。
最后我们将会得到一个类似这样的字典:
请记住,这是这个网站的一个具体案例。虽然这个登录表单很简单,但其他网站可能需要我们检查浏览器的请求日志,并找到登录步骤中应该使用的相关的key值和value值。
步骤2:执行登录网站
对于这个脚本,我们只需要导入如下内容:
首先,我们要创建session对象。这个对象会允许我们保存所有的登录会话请求。
第二,我们要从该网页上提取在登录时所使用的csrf标记。在这个例子中,我们使用的是lxml和xpath来提取,我们也可以使用正则表达式或者其他的一些方法来提取这些数据。
**更多关于xpath和lxml的信息可以在这里找到。
接下来,我们要执行登录阶段。在这一阶段,我们发送一个POST请求给登录的url。我们使用前面步骤中创建的payload作为data。也可以为该请求使用一个标题并在该标题中给这个相同的url添加一个参照键。
步骤三:爬取内容
现在,我们已经登录成功了,我们将从bitbucketdashboard页面上执行真正的爬取操作。
为了测试以上内容,我们从bitbucketdashboard页面上爬取了项目列表。我们将再次使用xpath来查找目标元素,清除新行中的文本和空格并打印出结果。如果一切都运行OK,输出结果应该是你bitbucket账户中的buckets/project列表。
你也可以通过检查从每个请求返回的状态代码来验证这些请求结果。它不会总是能让你知道登录阶段是否是成功的,但是可以用来作为一个验证指标。