使用 Typescript 实现简单的网络爬虫

本文最后更新于 2021年6月4日晚上

网络爬虫又称为网页蜘蛛或网络机器人，英文一般为 Web Crawler，Web Spider 或 Web Scraper。是一种遍历网站中所有网页内容的程序，爬虫的一个重要应用就是收集网站上的重要信息并汇总以便分析。

最近有一个评估官网上每个网页使用的 Title 关键字的需求，正好学习一下简单爬虫的实现，并通过本文进行记录。生产环境下更多使用的是 Python，因为轮子多且好用。

本文选择 Typescript 进行说明，以尽量通俗易懂的方式对整个爬取过程进行说明。

下面以一个简化版本的过程进行说明，从需求开始，明确要做什么以及怎么去做，最终进行编码实现。

概述

需求：要统计网站中所有页面 Title（H1~H6）的内容。

明确要做什么：实现一个爬虫程序，遍历网站所有页面，并汇总每个页面内的所有 Title（H1~H6）

考虑是否有一些限制条件，汇总如下：

使用 Typescript 实现简单的网络爬虫

https://blog.rayy.top/2021/06/03/2021-06-03-simple-web-crawler-using-typescript/

作者

貘鸣

发布于

2021年6月3日

许可协议