人工智能教学共同体 深圳信息职业技术学院
新技术课程

新技术课程

您的位置: 首页 > 新技... > 正文

Python爬虫技术

时间:2022-05-11   来源:    阅读:

你将获得

掌握某些知识点

学会某些技巧(或思路)

教学服务

1v1专属答疑服务

BAT专家面试辅导

讲师介绍

黄锐军副教授)

黄锐军从事职业院校计算机教育30余年,先后讲授过十多门计算机课程,编写教材十余部,主持企业软件项目开发多项,主持广东省精品在线开放课程两门,获得广东省教师教学能力比赛一等奖,被评为深圳市优秀教师。

课程详情

课程主要以爬取学生信息、爬取城市天气预报、爬取网站图像、爬起图书网站图书、爬取商城网站商品等5个项目为依托,讲解Web、正则表达式、BeautifulSoup、XPath、CSS、Scrapy、Selenium、多线程、深度与广度优先搜索等Python爬虫技术。当您学习完这些项目后,您就可以编程爬取几乎所有网站的数据了!

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

网络爬虫就是一组能自动从网站的相关网页中自动搜索与提取数据的程序,提取与存储这些数据是进一步实现数据分析的关键与前提。Python语言程序简单高效,编写网络爬虫有特别的优势,尤其业界有专门为Python编写的各种各样的爬虫程序框架,使得爬虫程序的编写更加简单高效。

Python是一种面向对象的解释型计算机程序设计语言,该语言开源、免费、功能强大,而且语法简洁清晰,具有丰富和强大的库,是目前应用广泛的程序语言。

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 https://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

腾讯课堂链接

https://ke.qq.com/course/4164101?tuin=3f81a6fa&taid=12580066588330501