终结滚动加载！Playwright + Python 爬取动态页面数据实战

- July 17, 2025

前言

在现代Web世界中，越来越多的内容是通过JavaScript在用户与页面交互时动态加载的。传统的requests库只能获取到页面的初始HTML，对付不了这些“活”的数据。虽然Selenium曾是解决之道，但现在我们有了更强大、更现代的选择——Playwright。

本指南将通过一个实战案例，带你掌握如何使用Playwright + Python，轻松搞定动态页面的数据爬取。

一、Playwright 是什么？

Playwright是微软开源的新一代自动化测试工具，它支持Chromium、Firefox和WebKit等所有主流浏览器。与Selenium相比，它拥有更快的执行速度、更稳定的API和更强大的功能，尤其是在处理现代Web应用的复杂交互时。

核心优势:

原生支持异步 (asyncio): 非常适合高并发的网络请求场景。
自动等待机制: Playwright会自动等待元素变为可操作状态，大大减少了不稳定的time.sleep()。
网络拦截: 可以拦截和修改网络请求，例如屏蔽图片或CSS来加速爬取。
一流的开发者体验: API设计简洁、现代，文档清晰易懂。

二、环境准备

安装Playwright非常简单，它会自动帮你处理好浏览器驱动。

# 1. 安装Playwright库
pip install playwright

# 2. 安装所需的浏览器驱动 (首次运行时执行)
playwright install

三、核心概念与API

Playwright提供了同步和异步两种API。对于爬虫这类IO密集型任务，我们强烈推荐使用异步API以获得最佳性能。

1. 基本流程

一个典型的Playwright爬取脚本遵循以下步骤：

启动Playwright上下文
启动一个浏览器实例 (launch)
创建一个新的页面 (new_page)
导航到目标URL (goto)
执行操作并等待内容加载
解析页面，提取数据
关闭浏览器

2. 等待的艺术：处理动态内容的关键

Playwright最强大的功能之一就是其智能的等待机制。你不再需要猜测需要等待多久。

page.wait_for_selector(selector): 等待指定的CSS选择器或XPath匹配的元素出现在DOM中。这是最常用的等待方法。
page.wait_for_load_state('networkidle'): 等待直到网络连接在一段时间内都处于空闲状态。适合等待所有由AJAX触发的后台请求完成。
page.wait_for_timeout(milliseconds): 强制等待指定的毫秒数（应尽量避免使用）。

四、实战案例：爬取无限滚动的博客文章列表

假设我们要爬取一个博客网站，它的文章列表是“无限滚动”的，即当你滚动到页面底部时，它会自动加载更多文章。

目标: 爬取该博客前5页的所有文章标题和链接。

# scrape_dynamic_blog.py
import asyncio
from playwright.async_api import async_playwright

async def main():
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True) # 使用无头模式
        page = await browser.new_page()
        await page.goto('https://your-target-blog.com/articles')

        # 用于存储所有文章的集合，利用set去重
        all_articles = set()

        # 滚动5次，加载5页内容
        for _ in range(5):
            # 等待文章列表容器出现
            await page.wait_for_selector('.article-list-container')

            # 获取当前页面上的所有文章
            articles = await page.query_selector_all('.article-item')
            for article in articles:
                title_element = await article.query_selector('.article-title')
                link_element = await article.query_selector('a')

                if title_element and link_element:
                    title = await title_element.inner_text()
                    link = await link_element.get_attribute('href')
                    all_articles.add((title, link))

            # 滚动到页面底部以触发加载
            await page.evaluate('window.scrollTo(0, document.body.scrollHeight)')

            # 等待一小段时间，让新的内容加载出来
            # 使用wait_for_load_state更可靠
            await page.wait_for_load_state('networkidle')

        print(f"成功爬取 {len(all_articles)} 篇文章:")
        for title, link in all_articles:
            print(f"  - 标题: {title}, 链接: {link}")

        await browser.close()

if __name__ == '__main__':
    asyncio.run(main())

代码解析:

我们使用asyncio和async_playwright来运行异步代码。
通过一个for循环来模拟用户的滚动行为。
在每次滚动前，我们使用page.query_selector_all获取当前已加载的文章，并提取标题和链接，存入一个set中以自动处理重复内容。
page.evaluate('window.scrollTo(0, document.body.scrollHeight)')是执行JavaScript代码的关键，它让浏览器滚动到页面最底部。
滚动后，我们使用page.wait_for_load_state('networkidle')来智能地等待新的AJAX请求完成，确保新文章已经加载到DOM中，然后再进行下一轮的抓取。

五、性能与技巧

拦截请求: 如果你只需要HTML内容而不需要图片、字体或CSS，可以拦截这些请求来大幅提升速度。

await page.route("**/*", lambda route: route.abort() 
    if route.request.resource_type in ["image", "font", "stylesheet"] 
    else route.continue_())

使用无头模式: 在生产环境中，始终设置headless=True，因为它不需要渲染图形界面，速度更快，资源消耗更少。

总结

Playwright为Python爬虫工程师打开了一扇新的大门。它不仅能完美处理JavaScript渲染、AJAX请求、用户交互等动态页面的所有挑战，其优秀的API设计和强大的功能也让整个开发过程变得更加高效和稳定。

当你下次遇到一个看似无法用requests搞定的网站时，不妨试试Playwright，它会给你带来惊喜。

Search This Blog

Tech Blog