↧
nutch的分布式抓取
前段时间我写了一篇文章讲nutch的简单使用,是单台机器抓取,今天我讲一下nutch的分布式抓取。 由于nutch的分布式是采用hadoop,所以nutch的分布式抓取主要涉及到hadoop和nutch本身两方面的配置。 hadoop的配置 hadoop的配置主要涉及到以下几个文件: hadoop-env.sh hadoop-env.sh里面是一些hadoop脚本文件需要用到的环境变量。...
View Article