Python中的图像抓取程序无法按预期运行

Python 2019-05-30

我的代码只返回一个空字符串,我不知道为什么.

import urllib2

def getImage(url):
    page = urllib2.urlopen(url)
    page = page.read() #Gives HTML to parse

    start = page.find('


它只返回它找到的第一个图像,所以它不是一个非常好的图像刮刀;那说,我现在的主要目标只是为了能够找到一个图像.我无能为力.


最佳答案
考虑使用BeautifulSoup来解析HTML：

from BeautifulSoup import BeautifulSoup
import urllib
url  = 'http://www.google.com'
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for img in soup.findAll('img'):
     print img['src']


imageimageimage


            
            

            
              
                相关文章

              
                爬虫实战：探索XPath爬虫技巧之热榜新闻
              
              在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选择XML文档中特...
            

              
                谁说后端不能画出美丽的动图？让我来给大家拜个年！
              
              祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，勇往直前，不...
            

              
                爬虫实战：从网页到本地，如何轻松实现小说离线阅读
              
              今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小说并将其下载...
            

              
                爬虫实战+数据分析：全国消费支出分析及未来预测
              
              完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分内容专注于数...
            

              
                Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南
              
              JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，它提供了简单...
            

              
                Java开发者的Python快速进修指南：掌握T检验
              
              独立样本T检验适用于比较两组独立样本的均值差异，而配对T检验则适用于比较同一组样本在不同条件下的均...


    
    
        
            Copyright © 2018 前端之家. 当前版本 V7.0.16

            前端之家 版权所有 
            闽ICP备13020303号-10