[南开大学]21春学期(1709-2103)《网络爬虫与信息提取》在线作业
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分) 1.下列说法错误的是()
A.小程序的请求极其简单,基本上没有验证信息 B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。
C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。 D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率。
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :B
2.()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。 A.meta B.head C.header D.body
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :A
3.启动MongoDB使用命令mongod --() usr/local/etc/mongod.conf A.config B.install C.start D.begin
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :A
4.HTTP常用状态码表明服务器不允许访问那个资源的是() A.500 B.503 C.403 D.405
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :C
5.Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为() A.空 B.空列表 C.空元组 D.不返回
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :B
6.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成 A.列表 B.元组 C.字典 D.集合
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :A
7.在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作?() A.spiders文件夹 B.item.py C.pipeline.py D.settings.py
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :C
8.Python在Windows路径字符串左引号的左边加()符号来避免反斜杠问题 A.s B.c C.d D.r
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :D
9.python中可以用来将图片中的文字转换为文本的第三方类库是 A.lxml B.requests
C.beautifulsoup D.pytesseract
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :D
10.在Linux中哪个命令是添加权限的() A.chmod B.sudo C.cp D.mkdir
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :A
11.使用python定制mitmproxy,下面的语句请求的是()。{req.headers[\
A.headers B.文本内容 C.目标网站 D.user-agent
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :D
12.PyMongo中逻辑查询表示小于等于的符号是() A.$gt B.$lt
C.$gte$$lte
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :C
13.Python中若定义object=[1, 2, 3, 4, 5],则print(object[-4])输出() A.NULL B.2 C.4
D.程序报错
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :B
14.Python中Object={'obj_1':'1','obj_2':'2'},则Objcet.get('boj_3','3')是() A.1 B.2 C.3
D.无输出
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :C
15.PyMongo中的查找方法的参数是哪种数据结构() A.列表 B.元组 C.字典 D.集合
[请认真分析题目,从上述选项中选择您认为正确的填写作答] 正确选择 :C
16.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含() A.列表 B.元组 C.字典 D.集合