农业大数据以及相关技术
应用
数字农业的发展还处于早期阶段,对于其核心的组成部分以及各个部分的理解还有不少歧义。大数据(Big Data)是一个比较新的概念,它也很容易让人望文生义。最简单和最直接的反应就是认为大数据就是“大量的数据”。
一位统计局的领导就自豪地跟我说:“我们有各行各业多年来的统计数据,有公开发表的,也有没有公开发表的。这些都是最好的大数据”。客观地说,这是一个非常典型的误读。
关于大数据,不同的研究机构给出的定义是不同的:
美国专门研究大数据公司Gartner的定义是:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中给出的定义是:不用随机分析法(传统的抽样调查)的途径,而采用所有数据进行分析处理。
IBM公司归纳了大数据的5V特点:Volume(大量),Velocity(高速),Variety(多样),Value(低价值密度),Veracity(真实性)。
笔者认为,这些国外的机构和专家的总结和归纳,都在一些侧面
反映了大数据的特质和特性,但是还不够全面和准确。那么我们应该怎样理解和定义“大数据”呢?。
1
- 大数据是动态数据 -
通过各种设备、设施、软件和系统实时获取的动态数据是大数据。比如生产过程中通过监控设备获取的数据、气象监测数据、作物生长数据和消费者的动态数据等等。但统计数据不是大数据,因为它是主要是通过行政管理机构或者市场调查机构,逐层调查和统计上来的静态数据,比如说农业、农村和农民数据等。这些数据的获得不仅耗时费力,还常常会出现人为的偏差和失误。而且一旦统计结果汇总之后即成为历史数据。动态的数据的收集、汇总和实时更新需要通过适当的设备、设施和技术手段来实现。所幸,社会活动的多样化,信息技术的发展,特别是移动终端的普及,使得无限这一任务可以轻松达成,而且大数据的触角也得到极大延展。
2
- 大数据是多维度的数据 -
我们以农业的产业大数据为例,影响生产过程的因素可以是投入的原材料的变化,技术的先进程度,生产的环境条件,人员的操作水