你好,游客 登录 注册 发布搜索
背景:
阅读新闻

中华英才网网页数据抓取系统解决方案

[日期:2007-08-22] 来源:北京杰软科技有限公司  作者: [字体: ]
英文顶级域名注册 海外域名注册 中文域名注册 国别域名注册 姓名域名注册 高速韩国空间 外贸美国空间 精准邮件营销
您身边的网络运维管家! 电话: 13450298258 / 020-33552092 QQ: 9077260 点击立即联系我
  1. 引言

  项目背景

  在互联网络的时代,信息如同大海般没有边际。甚至我们获取信息的方法已经发生改变:从传统的翻书查字典,继而变成通过搜索引擎进行检索。我们从信息匮乏的时代一下子走到了信息极大丰富今天。

  在今天,困扰我们的问题不是信息太少,而是太多,多得让你无从分辨,无从选择。因此,提供一个能够自动在互联网上抓取数据,并自动分拣、分析的工具有非常重要的意义。

  我们通过传统的搜索引擎所获得的信息,通常是通过网页的形式所展现的,这样的信息人工阅读起来自然亲切,但计算机却很难进行加工和再利用。而且检索到的信息量太大,我们很难在大量的检索结果中抽取出我们最需要的信息。

  本方案中所涉及的数据聚合系统正是由此而生。该系统根据一定的规则,在指定的网站中进行信息抓取,并将抓取到的结果分析、整理后保存在结构化数据库中,为数据的再次利用提供准备。

  中华英才网是著名的大型招聘类网站。为了对招聘市场的整体容量进行全面、细致了解,帮助中华英才网全面了解其他竞争对手的情况,为市场人员提供潜在的客户信息,我们特提供该解决方案。

  任务和目的

  杰软公司和中华英才网合作开发数据自动聚合系统,通过该系统从互联网上获取开放的信息资源,并对信息进行分析、处理和再加工,为中华英才网的市场营销部门提供准确的市场信息资源。

  2. 方案设计原则

  在我们进行系统方案设计时充分考虑到了如下两个原则,并将始终贯穿于设计和开发过程中:

  系统的准确性

  该系统需要从互联网络这个巨大的信息海洋里获取信息,如何保证其所抓取的信息的准确性、有效性,是评价整个系统价值的关键因素。因此,我们除了需要对抓取的信息进行分拣、分析外,当目标网站的内容、格式发生变化时,能够智能感知,并及时的通报、调整也是确保系统准确性地重要手段。

  系统的灵活性

  尽管该系统是针对少数用户提供服务的、对固定站点进行监测的内部系统,但仍然需要具备一定的灵活性和较强的可扩展性。

  因为目标站点的结构、层次、格式是不断变化的;而且本系统需要抓取的目标站点也在不断的调整;因此该系统必须能够适应这种变化,在抓取的目标发生变化时,系统能够通过简单的设置或调整就能够继续完成数据聚合任务。
收藏 推荐 打印 | 录入:csnic | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款

热门评论
推荐链接
域名、域名注册、主机、虚拟主机、邮箱、企业邮局、客服、网站秘书、推广、网站推广、免费试用
域名注册
虚拟主机
企业邮箱

 

Copyright © CSNIC Powered by 

Powered by iwms 6.0