Der Norconex HTTP Collector ist ein auf Java basierter open source Web Crawler. Siehe http://www.norconex.com/