网站首页 > 知识剖析 正文
AngleSharp 是一个 C# 库,主要用于解析和操作 HTML 和 XML 文档,类似于浏览器的 DOM 操作。允许你在 C# 中使用类似浏览器的方式处理网页数据,进行网页抓取、数据提取和处理等任务。
安装
第一步,老规矩,先安装
Install-Package AngleSharp
使用
解析 HTML 文档
using AngleSharp.Html.Parser;
var html = @"Hello, World!
";
// 创建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);
// 查找 元素
var h1 = document.QuerySelector("h1");
// 输出 中的文本
Console.WriteLine(h1.TextContent); // Output: Hello, World!
解析并抓取网页
// 创建 HttpClient 来抓取网页
using AngleSharp.Html.Parser;
using var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 创建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);
// 查找页面中的标题
var title = document.QuerySelector("title");
// 输出页面标题
Console.WriteLine(title.TextContent);
DOM 操作
选择器和查询
var h1 = document.QuerySelector("h1"); // 获取第一个 元素
var allLinks = document.QuerySelectorAll("a"); // 获取所有 标签
获取元素属性
var firstLink = document.QuerySelector("a");
var href = firstLink.GetAttribute("href");
Console.WriteLine(href); // 输出链接地址
修改元素
var heading = document.QuerySelector("h1");
heading.TextContent = "New Heading"; // 修改文本内容
heading.SetAttribute("class", "new-class"); // 修改 class 属性
遍历节点
var links = document.QuerySelectorAll("a");
foreach (var link in links)
{
Console.WriteLine(link.GetAttribute("href"));
}
4异步操作
using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;
class Program
{
static async Task Main()
{
// 使用异步抓取网页内容
using var client = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 使用 HTML 解析器解析网页
var parser = new HtmlParser();
var document = await parser.ParseDocumentAsync(html);
// 操作 DOM
var h1 = document.QuerySelector("h1");
Console.WriteLine(h1.TextContent);
}
}
5. 实战:抓取网页中的所有链接
using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;
class Program
{
static async Task Main()
{
// 获取网页
using var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 创建解析器
var parser = new HtmlParser();
var document = await parser.ParseDocumentAsync(html);
// 获取所有的链接
var links = document.QuerySelectorAll("a");
// 输出所有链接
foreach (var link in links)
{
var href = link.GetAttribute("href");
Console.WriteLine(href);
}
}
}
总结
AngleSharp 是一个强大的工具,可以帮助你在 C# 中进行 HTML 和 XML 的解析和操作。它对于网页抓取、数据提取等任务非常有用。通过提供类似浏览器的 DOM 操作接口,它能使你更容易地处理和操作网页内容。
猜你喜欢
- 2025-04-06 开源XML数据库 BaseX(数据库xml文件格式)
- 2025-04-06 ECMA-376(Office Open XML)标准文件阅读记录(一)
- 2025-04-06 WordPress和Typecho xmlrpc漏洞(wordpress_xmlrpc)
- 2025-04-06 添加大华摄像头提示用户名或密码不正确
- 2025-04-06 前端开发-文件上传,如何使用XMLHttpRequest将文件发送到后台?
- 2025-04-06 XMLHttpRequest VS. Fetch, 谁才是 2019 最适合的 AJAX 技术?
- 2025-04-06 SpringBoot-19-Mybatis的xml配置方式
- 2025-04-06 mybatis 什么情况下用注解绑定,什么情况下用xml绑定?
- 2025-04-06 SpringBoot 系列教程 Mybatis+xml 整合篇
- 2025-04-06 AJAX基本教程(五)AJAX-XMLHttpRequest
- 04-29php开发者composer使用看这一篇就够了
- 04-29引用和变量声明在不同语言中的实作
- 04-29PHP 没你想的那么差
- 04-29Ubuntu linux 上的 Nginx 和 Php 安装
- 04-29CentOS下通过yum搭建lnmp(单版本PHP)
- 04-29为什么 PHP8 是个高性能版本
- 04-29PHP8函数包含文件-PHP8知识详解
- 04-29使用无参数函数进行命令执行
- 最近发表
- 标签列表
-
- xml (46)
- css animation (57)
- array_slice (60)
- htmlspecialchars (54)
- position: absolute (54)
- datediff函数 (47)
- array_pop (49)
- jsmap (52)
- toggleclass (43)
- console.time (63)
- .sql (41)
- ahref (40)
- js json.parse (59)
- html复选框 (60)
- css 透明 (44)
- css 颜色 (47)
- php replace (41)
- css nth-child (48)
- min-height (40)
- xml schema (44)
- css 最后一个元素 (46)
- location.origin (44)
- table border (49)
- html tr (40)
- video controls (49)