目录
Python总结 ......................................... 错误!未定义书签。
前言 ............................................ 错误!未定义书签。 (一)如何学习Python............................ 错误!未定义书签。 (二)一些Python免费课程推荐 ................... 错误!未定义书签。 (三)Python爬虫需要哪些知识?.................. 错误!未定义书签。 (四)Python爬虫进阶............................ 错误!未定义书签。 (五)Python爬虫面试指南........................ 错误!未定义书签。 (六)推荐一些不错的Python博客 ................. 错误!未定义书签。 (七)Python如何进阶............................ 错误!未定义书签。 (八)Python爬虫入门............................ 错误!未定义书签。 (九)Python开发微信公众号...................... 错误!未定义书签。 (十)Python面试概念和代码...................... 错误!未定义书签。 (十一)Python书籍.............................. 错误!未定义书签。
前言
知乎:路人甲
微博:玩数据的路人甲
微信公众号:一个程序员的日常
在知乎分享已经有一年多了,之前一直有朋友说我的回答能整理成书籍了,一直偷懒没做,最近有空仔细整理了知乎上的回答和文章另外也添加了一些新的内容,完成了几本小小的电子书,这一本是有关于Python方面的。
还有另外几本包括我的一些数据分析方面的读书笔记、增长黑客的读书笔记、机器学习十大算法等等内容。将会在我的微信公众号:一个程序员的日常进行更新,同时也可以关注我的知乎账号:路人甲 及时关注我的最新分享用数据讲故事。 (一)如何学习Python
学习Python大致可以分为以下几个阶段:
1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Python 简介 | 菜鸟教程
2.看完基础后,就是做一些小项目巩固基础,比方说:做一个终端计算器,如果实在找不到什么练手项目,可以在 Codecademy - learn to code, interactively, for free 上面进行练习。
3. 如果时间充裕的话可以买一本讲Python基础的书籍比如《Python编程》,阅读这些书籍,在巩固一遍基础的同时你会发现自己诸多没有学习到的边边角角,这一步是对自己基础知识的补充。
库是Python的精华所在,可以说Python库组成并且造就了Python,Python库是Python开发者的利器,所以学习Python库就显得尤为重要:The Python Standard Library ,Python库很多,如果你没有时间全部看完,不妨学习一遍常用的Python库:Python常用库整理 - 知乎专栏
库是开发者利器,用这些库你可以做很多很多东西,最常见的网络爬虫、自然语言处理、图像识别等等,这些领域都有很强大的Python库做支持,所以当你学了Python库之后,一定要第一时间进行练习。如何寻找自己需要的Python库呢?推荐我之前的一个回答:如何找到适合需求的 Python 库?
6.学习使用了这些Python库,此时的你应该是对Python十分满意,也十分激动能遇到这样的语言,就是这个时候不妨开始学习Python数据结构与算法,Python设计模式,这是你进一步学习的一个重要步骤:faif/python-patterns
7.当度过艰难的第六步,此时选择你要研究的方向,如果你想做后端开发,不妨研究研究Django,再往后,就是你自己自由发挥了。
(二)一些Python免费课程推荐 以下课程都为免费课程
零基础相关
适用人群:Python零基础的初学者、Web开发程序员、运维人员、有志于从事互联网行业以及各领域应用Python的人群
疯狂的Python:快速入门精讲 零基础入门学习Python 玩转Python语言 Python语言程序设计 程序设计入门
可汗学院公开课:计算机科学 python 入门到精通
Python交互式编程入门的课程主页
Python交互编程入门(第2部分)的课程主页
web方向
Python Django 快速Web应用开发入门
爬虫
Python实战:一周学会爬取网页
数据分析方向
数据分析实战基础课程
(三)Python爬虫需要哪些知识?
要学会使用Python爬取网页信息无外乎以下几点内容: 1、要会Python
2、知道网页信息如何呈现 3、了解网页信息如何产生 4、学会如何提取网页信息
第一步Python是工具,所以你必须熟练掌握它,要掌握到什么程度呢?如果你只想写一写简单的爬虫,不要炫技不考虑爬虫效率,你只需要掌握:
数据类型和变量 字符串和编码
使用list和tuple 条件判断、循环 使用dict和set
你甚至不需要掌握函数、异步、多线程、多进程,当然如果想要提高自己小爬虫的爬虫效率,提高数据的精确性,那么记住最好的方式是去系统的学习一遍Python,去哪儿学习?Python教程
假设已经熟悉了最基础的Python知识,那么进入第二步:知道网页信息如何呈现?你首先要知道所需要抓取的数据是怎样的呈现的,就像是你要学做一幅画,在开始之前你要知道这幅画是用什么画出来的,铅笔还是水彩笔...可能种类是多样的,但是放到网页信息来说这儿只有两种呈现方式: 1、HTML (HTML 简介) 2、JSON (JSON 简介)
HTML是用来描述网页的一种语言 JSON是一种轻量级的数据交换格式
假设你现在知道了数据是由HTML和JSON呈现出来的,那么我们紧接着第三步:数据怎么来?数据当然是从服务器反馈给你的,为什么要反馈给你?因为你发出了请求。
“Hi~ ,服务器我要这个资源” “正在传输中...”
“已经收到HTML或者JSON格式的数据”
这个请求是什么请求?要搞清楚这一点你需要了解一下http的基础知识,更加精确来说你需要去了解GET和POST是什么,区别是什么。也许你可以看看这个:浅谈HTTP中Get与Post的区别 - hyddd - 博客园
很高兴你使用的是Python,那么你只需要去掌握好快速上手 - Requests 文档,requests可以帮你模拟发出GET和POST请求,这真是太棒了。
饭菜已经备好,两菜一汤美味佳肴,下面就是好好享受了。现在我们已经拿到了数据,我们需要在这些错乱的数据中提取我们需要的数据,这时候我们有两个选择。
第一招:万能钥匙
Python正则表达式指南 ,再大再乱的内容,哪怕是大海捞针,只要告诉我这个针的样子我都能从茫茫大海中捞出来,强大的正则表达式是你提取数据的不二之选。
第二招:笑里藏刀 Beautiful Soup 文档,或许我们有更好的选择,我们把原始数据和我们想要的数据的样子扔个这个Beautifulsoup,然后让它帮我们去寻找,这也是一个不错的方案,但是论灵活性,第二招还是略逊于第一招。
第三招:双剑合璧
最厉害的招式莫过于结合第一招和第二招了,打破天下无敌手。 基础知识我都会,可是我还是写不了一个爬虫啊! 客观别急,这还没完。
以下这些项目,你拿来学习学习练练手。
一些教学项目你值得拥有:
03. 豆瓣电影TOP250 04. 另一种抓取方式
还不够?这儿有很多:
知乎--你需要这些:爬虫学习资料整理
如何学习Python爬虫[入门篇]? - 知乎专栏
Python学习总结



