分布式采集系统
总体设计方案
贺志明
2010-4-8
第一篇 系统总体设计
1 系统流程图
HDFS
DNS_Master
DNS_Resolver
Spider_Master
www_Crawler
Data_processor
blog_Crawler
news_Crawler
bbs_Crawler
· 读取任务
· 任务分配
· 负载均衡
· 压力控制
· 监测采集
· 器的状态
· 故障处理
· 读取任务
· 采集网页
· 上传结果
· 读取数据
· 链接去重
· 增量更新
计算
· 链接排序
· 读取 URLs
· 任务分配
· 监测 DNS解
析器状态
· 故障处理
· 读取 URLs
· 查询 DNS缓存
· 解析 DNS
· 缓存 DNS结果
· 上传结果
Zookeeper
服务器
Zookeeper
服务器
2 系统体系结构
Spider_Master
Craw