第11章 大数据处理
简单介绍常见的大数据处理框架。 答:主要有三种,
?MapReduce:分布式计算框架,可以将单个大型计算作业分配给多台计算机执行,可以在短时间内完成大量工作,尤其适合数值型和标称型数据,但需要对行业领域具有一定理解后重写算法来完成特定的业务处理要求。MapReduce的名字由函数式编程中常用的map和reduce两个单词组成。MapReduce在大量节点组成的集群上运行,工作流程是:单个作业被分成很多小份,输入数据也被切片并分发到每个节点,每个节点只在本地数据上做运算,对应的运算代码称为mapper,这个过程即map阶段;每个mapper的输出通过某种方式组合,根据需要可能再进行重新排序,排序后的结果再被切分成小份并分发到各个节点进行下一步处理,这个过程被称为reduce阶段,对应的代码称为reducer。不同类型的作业可能需要不同数量的reducer,并且,在任何时候,每个mapper或reducer之间都不进行通信,每个节点只负责处理自己的事务,并且只在分配到本地的数据集上进行运算。
?Hadoop:Hadoop是MapReduce框架的一个免费开源实现,采用Java语言编写,支持在大量机器上分布式处理数据。除了分布式计算之外,Hadoop还自带分布式文件系统,可以在上面运行多种不同语言编写的分布式程序。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。
?Spark:Spark是一个针对超大数据集合的低延迟集群分布式计算系统,比MapReduce快40倍左右。Spark是Hadoop的升级版本,兼容Hadoop的API,能够读写Hadoop的HDFS HBASE 顺序文件等,与之不同的是将结果保存在内存中。 Hadoop作为第一代产品使用了HDFS,第二代加入了Cache来保存中间计算结果,第三代则是Spark倡导的流技术Streaming。
运行本章中代码并理解MapReduce编程思路。 答:略
第12章 Windows系统编程
查阅相关资料,解释注册表几大根键的用途。 答:略
选择一个编写好的Python程序,将其转换为exe可执行文件。 答:略,请参考书中相关介绍。
编写代码,使用至少3中不同的方法启动Windows自带的计算器程序。 答: 第一种方法: >>> import os >>> ('')
第二种方法: >>> import os >>> ('')
第三种方法: >>> import os >>> ('')
第四种方法: >>> import win32api >>> (0, 'open', '', '', '', 1)
第五种方法:
>>> import win32process
>>> handle=(r'c:\\windows\\system32\\','', None,None,0, , None, None,())
编写代码,检测您所使用的操作系统版本。 答:略,请参考节。
第13章 多线程编程
简单叙述创建线程的方法。 答:
Thread类支持使用两种方法来创建线程,一种是为构造函数传递一个可调用对象,另一种是继承Thread类并在派生类中重写__init__()和run()方法。创建了线程对象以后,可以调用其start()方法来启动,该方法自动调用该类对象的run()方法,此时该线程处于alive状态,直至线程的run()方法运行结束。
简单叙述Thread对象的方法。 答:
(1)join([timeout]:阻塞当前线程,等待被调线程结束或超时后再继续执行当前线程的后续代码,参数timeout用来指定最长等待时间,单位为秒。
(2)isAlive():测试线程是否处于运行状态
(3)start():自动调用run()方法,启动线程,执行线程代码。
(4)run():线程代码,用来实现线程的功能与业务逻辑,可以在子类中重写该方法来自定义线程的行为。
简单叙述线程对象的daemon属性的作用和影响。 答:
在脚本运行过程中有一个主线程,若在主线程中创建了子线程,当主线程结束时根据子线程daemon属性值的不同可能会发生下面的两种情况之一:1)当某子线程的daemon属性为False时,主线程结束时会检测该子线程是否结束,如果该子线程尚未完成,则主线程会等待它完成后再退出;2)当某子线程的daemon属性为True时,主线程运行结束时不对该子线程进行检查而直接退出,同时所有daemon值为True的子线程将随主线程一起结束,而不论是否运行完成。daemon属性的值默认为False,如果需要修改,则必须在调用start()方法启动线程之前进行修改。
解释至少3种线程同步方法。 答:
(1)使用Condition对象可以在某些事件触发后才处理数据,可以用于不同线程之间的通信或通知,以实现更高级别的同步。Condition对象除了具有acquire()和release()方法之外,
还有wait()、notify()、notify_all()等方法。下面通过经典生产者/消费者问题来演示Condition对象的用法。
(2)Queue模块(在Python 3中为queue模块)实现了多生产者/多消费者队列,尤其适合需要在多个线程之间进行信息交换的场合,该模块的Queue对象实现了多线程编程所需要的所有锁语义。
(3)Event对象是一种简单的线程通信技术,一个线程设置Event对象,另一个线程等待Event对象。Event对象的set()方法可以设置Event对象内部的信号标志为真;clear()方法可以清除Event对象内部的信号标志,将其设置为假;isSet()方法用来判断其内部信号标志的状态;wait()方法只有在其内部信号状态为真时将很快地执行并返回,若Event对象的内部信号标志为假,wait()方法将一直等待至超时或内部信号状态为真。
第14章 数据库编程
简单介绍SQLite数据库。 答:
SQLite是内嵌在Python中的轻量级、基于磁盘文件的数据库管理系统,不需要服务器进程,支持使用SQL语句来访问数据库。该数据库使用C语言开发,支持大多数SQL91标准,支持原子的、一致的、独立的和持久的事务,不支持外键限制;通过数据库级的独占性和共享锁定来实现独立事务,当多个线程同时访问同一个数据库并试图写入数据时,每一时刻只有一个线程可以写入数据。SQLite支持2TB大小的单个数据库,每个数据库完全存储在单个磁盘文件中,以B+树数据结构的形式存储,一个数据库就是一个文件,通过简单复制即可实现数据库的备份。
使用Python内置函数dir()查看Cursor对象中的方法,并使用内置函数help()查看其用法。
答:略。
叙述使用Python操作Access数据库的步骤。 答:
(1)建立数据库连接 import (DSN)
(2)打开记录集
rs_name = 'MyRecordset' #表名 ('[' + rs_name + ']', conn, 1, 3)
(3)操作记录集 () ()
(4)操作数据
sql_statement = \ (DSN)
(sql_statement) ()
(5)遍历记录