个人信息安全论文:搜索引擎与个人信息安全
摘要:搜索引擎的发展给我们的工作和生活带来了便利,同时给我们的个人信息安全带来了威胁。该文从搜索引擎的原理出发,简要分析了个人信息泄露的途径,并提出了避免信息泄露的思路和方法。
关键词:搜索引擎;个人信息;信息安全
“在搜索工具主宰的这个世界里,你依然有隐私,但你却不能确定哪些东西什么时候还叫做隐私。”
从1990年第一个互联网FTP资源搜索工具Archie发展至今,搜索引擎在近二十年的发展完善,可以用精、广、深来概括近几年搜索引擎技术的发展。智能化技术、数据加工技术以及个人行为分析技术的发展,使搜索结果精度越来越高;搜索引擎除了对文字进行检索外,还对视频、音频、地图、博客、论坛等进行检索,收集范围越来越广;搜索技术可以深入挖掘数据,受密码保护的数据、数据库数据都能被检索到。地理信息系统、自然语言处理、数据挖掘等技术使搜索引擎能直接为用户提供越来越多、越来越精确的内容。搜索引擎作为一种信息服务产业,呈现出智能化特征;搜索手段多元化并适应人类自然语言查询,同时还具备了交互功能,可以通过集成化形成个人整体形象。正是由于这些发展,使个人信息的被收集、加工、集成和披露成为隐私权益的一个极容易被侵害的领域。主要是某些人未经许可对个人隐私信息进行收集加工后,通过网站进行营销;另外也有很多论坛以及博客将搜索到的各类信息进行整理后发布,一些广告服务商利用一些技术,比如Cookies进行个人网络跟踪等,现在可以将搜索到的人们各方面的数据并整合成一体,从而确定被检索对象的身份。而越来越深的挖掘技术,使人们可能访问到受密码保护的内容,侵犯个人隐私。搜索引擎的使用与我们的信息安全息息相关,因此我们有必要了解我们的信息是如何泄露出去的。 1 搜索引擎原理
搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google的googlebot,一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息、内容和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向网站派出“蜘蛛”程序,扫描网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,更多的外部链接能让搜索引擎有更多机会找到并自动收录你的网站。
当用户以关键词提交查询信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次、链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 2 个人信息泄露的途径 2.1 搜索行为
当用户打开搜索引擎的搜索框,键入需要查询的内容,期望搜索引擎给予我们正确的答案,同时已经告诉搜索引擎用户目前大致在关心、注意的一些东西,目前所处的位置。搜索引擎同时记录用户搜索的时间、内容,点击的URL、以及其他一些用户相关的信息。搜索是一个毫无保障的泄密途径,搜索引擎是很多在线活动的起点,用户访问主要的搜索引擎并且相信自己能被引向最好的结果,但是结果有时候并不是这样:尽管用户键入了正确的域名,仍被指向一个不正确的网站,受操纵的搜索引擎会将人们引向一些恶意网站或者钓鱼网站。
2.2 搜索遗留痕迹
网络浏览器每次访问网页、图像或者其他对象的时候,都会在网络服务器上日志上留下一些纪录。一个简单的网络服务器日志记录了用户网络地址、本地日期时间、访问者的HTTP GET请求,同时用户的浏览器传递了查询的URL、浏览器的版本以及其他一些计算机操作系统的详情。
记录的IP地址信息可以用来帮助确定用户的IP地址,在很多情况下ISP都能精确定位他们的有线用户的位置。大型搜索引擎每个月接待数百万不同的访问者,它可以创建一个巨大的与IP地址关联的动态数据库。
网络浏览可能在服务器上产生cookie文件,网络服务器使用cookie来标记带有识别信息的网络浏览器,帮助提供无缝的浏览体验,通过向网络浏览器提供唯一的cookie,网络服务器便可以识别用户并准确的向各个用户提供适宜的服务。Cookie唯一标识了某个特定用户可能经常用的一个浏览器和账号的组合。通过cookie,在线公司能映射同一用户使用的不同网络或同一地址下的不同用户。主要搜索引擎的cookie有效期各不相同:AOL Search是1年google是2年,ASK是2年,MSN LIVE是13年YAHOO!是29年。到期时间越长,在线公司可以跟踪特定cookie的周期越长。 2.3 广告和嵌入式内容
许多网站在网页中嵌入了第三方内容。第三方内容采用合法的图片和视频代码段,也可在用户上网时用户跟踪用户。广告商和网络分析服务为网管提供了诱人的分析工具和广告收益,作为交换他们要求在网页中增加一小段HTML和Javascript代码片段。用户的网络浏览器会自动访问这些第三方服务器,第三方服务器记录下用户的访问并用cookie给浏览器打上标记。这些第三方的广告和嵌入式内容具有严重的隐私泄露和基于网络的信息泄露风险,广告网络越大,网络公司拥有关于用户在线活动的能力越大。 2.4 Spider程序
Spider程序时搜索引擎获取信息的主要途径之一。该程序使用HTTP请求网页、图片和文档,并将数据反馈给后端处理器和数据库。搜索引擎存储这些对象的副本并对他们进行缓存、本地维护并在用户提出请求时作为搜索结果的一部分返回,并从搜集到的网页提取出来链接来帮组确定搜索结果中的网页排行。当Spider复制一个文件时,信息泄露就无法避免。在公开可访问的网页上,试图让网页内容躲过搜索公司是完全不可能的。Spider搜索并获取网络中全部公开可用的信息,包括人们放在网上的无关的和敏感的信息。现在的Spider程序能阅读电子邮件、跟随链接、填表、监控网站、下载文件以及捕获图片,只要信息在网上可用,迟早被Spider程序获取。
3 最大化防止信息泄露 3.1 用户安全补丁
对于用户而言,处理网络信息泄露问题的最好的补丁和对策就是提高自身知识水平,成为一名有知识的用户,必须不断的评估威胁,才能保护个人信息的隐蔽性。
自我保护意识。首先用户应当提高自我的隐私保护意识,认识到问题的存在,知道哪些是最关键的问题,意识应该提高到何种程度。同时必须:清楚自己泄露的东西,自己评价每种工具并懂得它何时会泄露你的个人信息,意识到“世界上没有免费的午餐”,没有一家网络公司会真正免费的提供工具和服务,这些都必须以你的个人信息和行为做为代价来进行交换;思考一下对共享信息一方的信任度是多少;想想正在共享的东西有多少是与自己身边的人共享过的;仔细阅读网站的隐私政策,明白其中的言外之意;浏览器设置为每次结束会话删除cookies,尽可能不使用第三方cookie;以泄露最少的信息量来完成一项工作;时刻记住你的网上行为可能经由第三方广告以及网络流量分析软件在许多站点间被跟踪。
可用的安全性。保护基于网络的的信息泄露要求可用的安全措施,通过生成涉及可行、高效、可理解的可用安全措施保护人们维护安全性。这种系统只在用户需要作出决定的时候打扰用户,在正确的时候提供正确的信息,安全保护有效而不可见。但是这种保护失败的例子较多,比如说使用一个SSL加密的网站时,用户在后台得到了充分保护,但是当证书和站点域名没有匹配时用户就会收到莫明奇妙的报错信息,由于错误出现频繁,大多数用户会忽略这种信息,导致安全保护的失效。 3.2 技术保护
用户需要用工具提供技术支撑来实现信息保护的目的,全面的技术保护方案包括:限制cookie、减少泄露、适当的加密等,许多解决方案以网络浏览器为中心。
1)控制cookie:最简单有效的的对策就是减少或者删除用户计算机上积累的cookie。Cookie存在有两种类型,一种是进存在少量时间(会话cookie),另一种是可以存在很长时间(永久cookie)。现代浏览器对cookie的控制提供了许多智能的选择,能够选择性的接收来自
网站的cookie,可以选择cookie保存的时间,可以选择性拒绝来自第三方站点的cookie,支持许多扩展设计来补充浏览器的隐私和安全特性。但是阻止和删除cookie也会带来一些不便,在许多情况下,删除cookie会丢失之前在网站上配置的参数选项,每次访问你都将作为新用户出现,网站无法为你进行适当的定制。
2)减少泄露:通过部署代理可以避免你的浏览器被插入一个或者多个第三方网站的内容而留下足迹。代理在用户网络浏览器和目标网站中间充当中介,具备修改用户注入和流出通信的能力,用户可以用代理将流出和注入的通信调节成自己关系的内容,从而实现内同过滤功能,减少信息泄露。
通过使用具有改进的历史记录功能的软件能够监控自己的长期以来泄露的自己的精确信息,从而提升用户的自我保护意识。最好的自我监控解决方案不应当只包括搜索查询,还应当包括大多数类型的信息泄露的可见显示和汇总。基于浏览器的方法是最好的工具设计方法,设计良好的工具能够为用户显示自己访问过的网站上所有的泄露、与浏览器完美结合、保护用户本地存储的数据。
通过输入干扰搜索项也能有效保护自己的个人信息。当使用搜索工具时,用户提供的是无干扰的信息流,如搜索项或者映射地址,这样做才能容易识别合法行为。干扰则是在搜索栏中输入不必要,无效或者用户并不关系的信息提交给搜索引擎,在信息流中包括虚假的或者误导行为,来隐藏自己真正的行为和动机。
3)加密:密码学和加密通常被认为是解决大多数安全性问题的好办法。使用加密的安全HTTP协议SSL可以增加窃听的难度。但是SSL不能用于保护所有形式的在线行为,因为加密算法会增加处理开销,降低交互并要求更多的服务器资源。 3.3 策略保护 技术解决方案、用户自我保护意识和知识性提高不是保护个人信息、减少个人信息泄露的唯一途径。用户可以使用按个人级、组织级和国家级实现的良好策略和行为计划来支撑一些策略,策略解决方案包括多种解决方法,包括禁止跟踪(do-not-track)列表、可行的使用策略、对隐私组织的支持、数据匿名化、有限的数据保存与生存等。
除了以上几种办法,其他如网络地址保护、删除注册账号、最小化存储计算机上的敏感数据等措施也能有效减少个人信息的泄露。 4 关注搜索引擎带来的信息安全问题
我们必须意识到搜索引擎的发展的确方便了用户,但是一些不良搜索对个人隐私信息进行收集加工后,通过网站进行营销,个人信息被收集、加工、集成和披露,这已经成为一个隐私权益极易被侵害的领域。搜索引擎不但会泄露个人隐私,甚至有一些不良搜索背后聚集了黑客和商业欺诈组织,更是危及消费者安全。安全厂商MarkMonitor的研究人员调查发现,75%的网络钓鱼组织通过搜索引擎来寻找存在漏洞的站点,并对所找到的站点进行网络钓鱼攻击。信息安全危机不是来自某一个互联网服务提供商或内容提供商,而是来自于用户遗留在网上的信息。公众应当养成良好的网络习惯,掌握一些个人信息安全的技术防护知识,注意保护自己的隐私;政府部门应当对搜索引擎的个人隐私保护尽快出台相应的司法解释。从国际上看,搜索引擎的法律问题日益受到关注,相关立法研究也很活跃,其中关键是要明确搜索引擎在侵权纠纷中是否承担连带责任问题,如何承担。搜索引擎的发展给我们带来便利的同时对我们的信息安全造成了一些威胁,利弊之间的权衡自然是仁者见仁智者见智,技术的发展永远都是一把双刃剑。 参考文献:
[1] Schrenk M,Spiders W,Scrapers S.A Guide to Developing Internet Agents with PHP/CURL[M].北京:No Starch出版社,2007.