🏠 首页
› 笔记
› python + BeautifulSoup 实现一个 innerText方法

python + BeautifulSoup 实现一个 innerText方法

🕐 2025-02-26 13:30:30 UTC

你可以通过以下步骤来实现一个 `innerText` 方法，它可以提取 HTML 元素中的纯文本内容。

你可以通过以下步骤来实现一个 innerText 方法，它可以提取 HTML 元素中的纯文本内容。首先，确保你已经安装了 beautifulsoup4 和 lxml 作为依赖。

安装依赖

首先安装 beautifulsoup4 和 lxml：

pip install beautifulsoup4 lxml

Python 示例代码

from bs4 import BeautifulSoup

def innerText(html):
    # 使用 BeautifulSoup 解析 HTML 内容
    soup = BeautifulSoup(html, 'lxml')
    # 使用 get_text() 方法获取文本内容
    return soup.get_text()

# 示例用法
html_content = """
<html>
    <body>
        <h1>标题</h1>
        <p>这是一个 <a href="#">链接</a>。</p>
        <p>另一个段落。</p>
    </body>
</html>
"""

text = innerText(html_content)
print(text)

解释

BeautifulSoup(html, 'lxml')：创建一个 BeautifulSoup 对象，使用 lxml 解析器来解析 HTML 内容。
get_text()：提取所有 HTML 元素中的纯文本内容，并返回一个字符串。

结果

运行上述代码后，输出将是：

标题
这是一个 链接。
另一个段落。

这样你就实现了一个 innerText 方法，可以从 HTML 中提取文本内容。

🔗 参考链接

https://chatgpt.com/c/67bea22b-098c-8013-9b8a-017b3f145dca