holmofy

“真”的IP真的是真的吗？

2024-01-11T16:00:00.000Z

TLDR

这篇文章比较长，介绍全面。恐怕很多人读不完，先来一个Too Long Don’t Read的总结：

从Http头中获取“真实客户端IP地址”时，请使用X-Forwarded-For列表中最右边的IP。
XFF中最左边的IP通常被认为是“最接近客户端”和“最真实”的，但它很容易伪造被欺骗。不要将它用于任何与安全相关的事情。
选择最右边的XFFIP时，请确保使用该标头的最后一个真实地址。
使用由反向代理设置的特殊“真实客户端IP”头（如X-Real-IP, True-Client-IP等）可能很好，但这取决于 a)反向代理实际如何设置它；b)如果它已经存在/欺骗，反向代理是否设置它；c)如果有反向代理，如何配置反向代理。
任何非反向代理专门设置的标头都不可信。比如，如果您不检查X-Real-IP标头直接在 Nginx 后面追加，那你可能将读取欺骗值。
许多限速器都使用可欺骗的IP实现，这容易受到绕过限速器导致内存溢出攻击。

如果你在代码或基础设施的任何地方使用所谓的“Real IP”，你现在就需要去检查你是如何提取它的。

下面将详细解释这些内容，因此请继续阅读。

介绍

使用X-Forwarded-For或其他HTTP标头获取所谓的“Real IP”，目前地使用状态非常糟糕。这些HTTP标头设计不正确、不一致，结果导致被不恰当地使用。这导致各种项目中的安全漏洞，并且肯定会在将来导致更多的问题。

在研究了一段时间的限速器之后，我开始关心 IPv6 处理。我写了一篇文章，详细介绍了IPv6限速如何导致速率限制器逃逸和内存溢出。然后，我转而担心限速器在负载均衡（或任何反向代理）后面时，如何确定要限速的IP。正如你所看到的，情况很糟糕。

但这不仅是关于限速器。如果你曾经接触过查看X-Forwarded-For标头的代码，或者如果你使用别人的代码去获取所谓的“RealIP”，那么你绝对需要小心谨慎。这篇文章将帮助你理解为什么。

获得真正的客户端 IP 不会那么难，对吧？

Web 服务对其客户端的 IP 地址感兴趣的原因有很多：地理统计、地理定位、审计、限速、防止滥用、会话历史记录等。

当客户端直接连接到服务器时，服务器可以看到客户端的 IP 地址。如果客户端通过一个或多个代理（任何类型的代理：正向、反向、负载均衡器、API 网关、TLS 卸载、IP 访问控制等）进行连接，则服务器只能直接看到客户端连接使用的最终代理的 IP 地址。

为了将原始 IP 地址传递到服务器，有几个常用的HTTP标头：

X-Forwarded-For是逗号分隔的 IP 列表，每个经过的代理都会将访问者追加到该IP列表。按照这个想法，第一个IP（由第一个代理添加）是真正的客户端IP。每个后续 IP 都是路径上的另一个代理。最后一个代理的 IP 不存在（因为代理不添加自己的 IP，并且因为它直接连接到服务器，因此其 IP 无论如何都可以直接使用）。后面将经常讨论这个问题，所以它将缩写为“XFF”。
Forwarded是最官方的标头但似乎使用最少。我们将在下面更详细地介绍它，但它实际上只是 XFF 的一个更高级版本，它具有我们将要讨论的相同问题。
还有特殊的单 IP 标头，如 X-Real-IP（Nginx）、CF-Connecting-IP（Cloudflare）或 True-Client-IP（Cloudflare 和 Akamai）。我们将在下面详细讨论这些，但它们不是本文的主要重点。

陷阱

在讨论如何正确使用 XFF 之前，我们将讨论使用X-Forwarded-For可能出错的多种形式。

标头不可信

首先，也是最重要的一点，您必须始终意识到，由不受您控制的任何代理添加（或似乎已经添加）的任何 XFF IP 都是完全不可靠的。任何代理都可以以任何它想要的方式添加、删除或修改标头。客户端也可以最初将标头设置为它想要的任何内容，以使欺骗球滚动。例如，如果您向 AWS 负载均衡器发出此请求：

1	curl -X POST https://my.load.balanced.domain/login -H "X-Forwarded-For: 1.2.3.4, 11.22.33.44"

负载均衡器后面的服务器将获得以下信息：

1	X-Forwarded-For: 1.2.3.4, 11.22.33.44,

还有这个：

1	curl -X POST https://my.load.balanced.domain/login -H "X-Forwarded-For: oh, hi,,127.0.0.1,,,,"

会给你这个：

1	X-Forwarded-For: oh, hi,,127.0.0.1,,,,,

正如你所看到的，目前都只是通过，这个标头前面的信息不会被改变也不会被验证。最终的实际 IP 只是附加到已经存在的内容后。

（除了curl 和自定义客户端之外，还有类似于ModHeader的Chrome插件可让您在浏览器请求中设置 XFF 标头。但是，如何设置标头对我们来说并不重要，重要的是攻击者可以利用这一点。

多个标头

根据 HTTP/1.1 RFC （2616）:

Multiple message-header fields with the same field-name MAY be present in a message if and only if the entire field-value for that header field is defined as a comma-separated list [i.e., #(values)]. It MUST be possible to combine the multiple header fields into one “field-name: field-value” pair, without changing the semantics of the message, by appending each subsequent field-value to the first, each separated by a comma. The order in which header fields with the same field-name are received is therefore significant to the interpretation of the combined field value, and thus a proxy MUST NOT change the order of these field values when a message is forwarded.

这适用于 XFF，因为它是一个逗号分隔的列表。这可能使获取最右边（甚至最左边）的 IP 容易出错。

例如，Go语言有三种获取标头值的方法：

http.Header.Get(headerName)以字符串形式返回第一个标头值。
http.Header.Values(headerName)返回一个字符串切片（数组），其中包含headerName标头的所有实例的值。(在查找之前headerName会被规范化)
http.Header是个map[string][]string，可以直接访问。（map的key是规范化的标头名称。这类似于使用Values。

所以这是攻击：

Eve 使用两个伪造的 XFF 标头发出请求。
根据 RFC 要求，您的反向代理将 Eve 的真实 IP 添加到第二个 XFF 标头的末尾。
您调用req.Header.Get("X-Forwarded-For")并获取第一个标头。你把它分开，拿最右边的。
您选择了欺骗性 IP。你把它看作是值得信赖的。结果坏事了。

与 Go 不同，Twisted 获取单个标头值的方法返回最后一个值。（为什么没有标准的、通用的、公认的行为？这避免了上述攻击，但它可能会导致一个不同的（不太可能的）问题：如果你使用最右边的算法（如下所述），你需要从右边向后寻找第一个不受信任的IP。但是，如果您的一个反向代理添加了新的标头而不是附加（根据 RFC，这是一件有效的事情）怎么办？现在，您想要的 IP 在最后一个标头中无处可寻——它充满了受信任的反向代理 IP，而真正的 IP 位于 XFF 标头的先前实例中。

这里可能存在一种微妙的、假设的攻击：

你（至少）有两个你信任的反向代理。
第二个反向代理不喜欢超长的标头，因此它会创建一个新的标头，而不是在 XFF 标头太长时附加。
夏娃知道这一点。她想向你隐瞒她的IP。
夏娃在她给你的请求中恶搞了一个长长的XFF。
您的第一个反向代理将她的真实 IP 添加到 XFF 标头。
您的第二个反向代理不喜欢该标头的长度，因此它会创建一个新标头。标头值是第一个反向代理的 IP。
您的服务器软件获取最后一个标头，它只有一个 IP，属于您的第一个反向代理。
你的逻辑是做什么的？使用该 IP？因为它是私人的/受信任的，所以把它当作特殊的？恐慌是因为这个IP不可能被信任？

请注意，当我使用 AWS ALB 后面的服务器进行测试时，我发现 ALB 已经连接了 XFF 标头。所以这很好。我不知道其他反向代理是否也这样做，但我敢打赌没有真正的一致性。

最好的办法是自己合并所有 XFF 标头。

（值得询问和检查的是，确保反向代理附加到正确的标头，因为附加到错误的标头会破坏采取最正确的代理的可信度。我只检查了 AWS ALB 和 Cloudflare，他们做对了。如果有人发现做错了什么，请告诉我。

私有 IP

即使在完全非恶意的情况下，任何 XFF IP（尤其是最左边的 IP）也可能是私有/内部 IP 地址。如果客户端首先连接到内部代理，它可能会将客户端的私有 IP 添加到 XFF 标头中。这个地址永远不会对你有用。

拆分 IP

因为X-Forwarded-For不是官方标准，所以没有正式的规范。大多数示例显示 IP 地址以逗号空格（, ）分隔，但空格并不是严格要求的。（例如，HTTP/1.1 RFC 说像 XFF 这样的标头只是“逗号分隔”。我查看的大多数代码仅按逗号拆分，然后修剪值，但我发现至少有一个代码会查找逗号空间。

在测试时，在我看来，AWS ALB 在添加 IP 时使用逗号空间，但 Cloudflare 只使用逗号。

未加密的数据始终不可信

这应该不言而喻，但是如果您收到的是 HTTP-not-S 请求，那么任何人都可以在它们到达您之前修改标头。值得一提的是，闯入者无法搞砸“最右边”的方法（如下所述），因为他们无法搞砸从互联网到您的反向代理或服务器的最终连接的 IP。

所以只要加密你的流量，好吗？

其他标头（X-Client-IP，True-Client-IP）可能存在并被欺骗

一些反向代理会删除任何意外或不需要的标头，但有些（如AWS ALB）不会。因此，攻击者可以设置X-Client-IP、True-Client-IP标头，例如并直接连接到您的服务器。如果您的反向代理没有专门为您设置它们，您无需被愚弄使用它们。

尝试了解X-Forwarded-For

不幸的是，尝试让自己了解 XFF 也很困难。

MDN Web Docs 通常是此类内容的黄金标准，但关于 XFF 的页面根本没有提到这些风险; 它说“最右边的 IP 地址是最新代理的 IP 地址，最左边的 IP 地址是原始客户端的 IP 地址”，没有任何警告。维基百科条目要好得多：“由于很容易伪造X-Forwarded-For字段，因此应谨慎使用给定的信息。最右边的 IP 地址始终是连接到最后一个代理的 IP 地址，这意味着它是最可靠的信息来源。

【2022-03-09：为 MDN 文档创建了一个issue。 2022-03-19：我重写了页面，对其进行了公关，更改现已生效。您可以在此处查看原始Forwarded页面的 PDF。现在要修复页面…】

其他来源也同样可变。有些人对标头被欺骗的可能性或私人地址的存在（1、2、3、4、5）一无所知。其他人在提及风险方面做得很好（6,7,8），但有时您必须深入阅读才能获得警告。

避免这些坑

让我们做一些基线陈述：

使用专用地址空间中的 IP 作为“真正的”客户端 IP 从来都不是正确的选择.
使用实际上不是 IP 地址的值从来都不是正确的选择。
在没有诡计的情况下，最左边的非私有、非无效的 IP 是我们最接近“真实”客户端 IP。（以下简称“最左边”）。
我们唯一可以信任的客户端 IP 是我们控制的（反向）代理添加的第一个客户端 IP。（以下简称“最右边的”）。
最左边的人通常是最“真实”的，而最右边的人是最值得信赖的。那么你应该使用哪个IP？这取决于你要用它做什么。

如果你要做一些与安全有关的事情，你需要使用你信任的IP–最右边的IP。这里最明显的例子是限速。如果您为此使用最左边的 IP，攻击者可以在每个请求中欺骗不同的 XFF 前缀值，并完全避免受到限制。

此外，他们可能会通过强制您存储太多的单个条目来耗尽您的服务器内存——每个虚假 IP 一个条目。似乎很难相信将 IP 地址存储在内存中会导致耗尽 - 尤其是当它们存储在生存时间有限的缓存中时，但请记住：

攻击者不会局限于 40 亿个 IPv4 地址。他们可以使用所有数以亿计的 IPv6 地址，如果限制器对前缀不智能。
由于许多限制器不检查有效的 IP，因此攻击者可以使用所需的任何随机字符串。
另请注意，这些字符串可能很大;例如，Go 的默认标头块大小限制为 1MB。这意味着单个随机字符串“IP”可能接近 1MB。这意味着每个请求增加 1MB 的内存使用量。

对于所有攻击者和配置来说，它仍然不可行，但不应不加考虑地将其驳回。

或者，攻击者可以强制您对其他用户的 IP 地址进行速率限制/阻止。他们可以提供真实的 IP 地址，但不能提供他们的 IP 地址，您最终会被愚弄以限制其速率。（如果你使用“真实”的IP进行滥用报告，你最终可能会抱怨错误的人。

使用最右边的 IP 进行速率限制的缺点是，您可能会阻止一个代理 IP，该 IP 实际上不是滥用的来源，而只是被一堆不同的客户端使用，如果您只是使用最左边的 IP，您就会意识到这一点。是的，好吧。这似乎不太可能，而且它仍然比允许攻击者轻而易举地绕过您的速率限制器并使您的服务器崩溃要容易得多。

如果你正在做一些与安全无关的事情……认真考虑您的用例。假设您只想对您的统计数据进行 IP 地理位置查找。可能最左边的 IP 就是你想要的。您的绝大多数用户不会进行任何标头欺骗，并且随机互联网代理的地理位置对您没有好处，因此您可能会在最接近用户的 IP 上获得最佳结果。

另一方面，您可能需要考虑您期望拥有多少使用 Internet 代理的用户。可能足够少，如果你地理定位错误的东西，它不会损害你的统计数据。攻击者有没有办法通过故意歪曲你的地理统计数据来伤害你？可能不是，但花点时间认真考虑一下。

因此，在编写“GetRealClientIP（request）”函数时要小心。确保它有一个关于如何使用它的大警告注释。或者编写两个函数：GetUntrustworthyRealClientIP(request)和GetTrustworthyButLessRealClientIP(request)。这些都是可怕的名字。也许只是传递一面旗帜。无论如何，关键是要防止函数的调用者对结果的性质产生任何混淆。

使用该函数的结果时也要小心。编写代码很容易，让最左边的 IP 进行一些地理查找，然后决定您还需要进行速率限制……所以你不妨使用相同的“realClientIP”变量！哎呀。这可能是使错误的代码看起来错误的好时机。

请记住，最终代理 IP（或客户端的地址（如果直接连接）不在 XFF 标头中。为此，您需要查看您的请求连接信息。（在 Go 中的http.Request.RemoteAddr，许多 CGI 服务器的REMOTE_ADDR环境变量等）

算法

阅读本文时，请记住，最终的代理 IP 不在 XFF 列表中，而是RemoteAddr。另请注意，RemoteAddr它可能具有ip:port形式，具体取决于您的平台（就像在 Go 中一样）——当然可以确保只使用 IP 部分。

第一：收集所有IP

列出所有X-Forwarded-For标头中的所有IP。RemoteAddr也是有用的。

第二：确定您的安全需求是什么

默认使用最右边的方法。仅在必要时使用最左边的，并确保谨慎使用。

最左边：最接近“真实IP”，但完全不可信

如果您的服务器直接连接到 Internet，则可能有 XFF 标头，也可能没有（取决于客户端是否使用代理）。如果存在 XFF 标头，请选择最左侧的 IP 地址，该地址是有效的非专用 IPv4 或 IPv6 地址。如果没有 XFF 标头，请使用RemoteAddr。

如果您的服务器位于一个或多个反向代理后面，请选择最左边的 XFF IP 地址，该地址是有效的非私有 IPv4 或 IPv6 地址。（如果没有 XFF 标头，则需要立即修复网络配置问题。

永远不要忘记安全隐患！

最右边的：唯一值得信赖的有用IP

如果您的服务器直接连接到互联网，则 XFF 标头不可信。使用RemoteAddr。

如果您的服务器位于一个或多个反向代理后面，并且无法从 Internet 直接访问，则需要知道这些反向代理的 IP 地址或请求将通过的 IP 数量。我们将这些称为“受信任的代理 IP”和“受信任的代理计数”。（最好使用“受信任的代理 IP”，原因如“网络体系结构更改”部分所述。

受信任的代理 IP 或受信任的代理计数将告诉您在找到不属于某个反向代理的第一个 IP 之前，您需要检查距离 XFF 标头的右侧多远。此 IP 是由您的第一个受信任的代理添加的，因此是您唯一可以信任的 IP。使用它。

（请注意，我在这里说的不是“有效的非私有IP”。这样做很诱人，只是为了更加安全，如果你这样做，我不会责怪你，但如果你不能相信你自己的反向代理来添加适当的IP，那么你就会遇到更大的问题。

同样，如果您支持一个或多个反向代理并且没有 XFF 标头，您需要立即弄清楚人们如何直接连接到您的服务器。

暂定变化：最右边的非私有IP

如果您的所有反向代理都与您的服务器位于同一私有 IP 空间中，我认为可以使用最右边的非私有 IP，而不是使用“受信任的代理 IP”或“受信任的代理计数”。这相当于将所有专用 IP 范围添加到“受信任的代理 IP”列表中。

这不起作用的一个例子是，如果您位于外部反向代理服务（如 Cloudflare）后面——它不在您的私有地址空间中。

掉进那些坑里

让我们看看真实世界的例子！

警告：我在这里有点得意忘形。我只打算看看几个我熟悉的项目，但危险使用最左边的命中率太高了，所以我一直在寻找。（即使做得好，也有一些有趣和有教育意义的方面。

（如果这里没有提到某个工具或服务，那是因为我没有看过它，或者找不到足够的信息。我包括了所有的成功和失败。

Cloudflare、Nginx、Apache

让我们从一些好消息开始。

Cloudflare 将CF-Connecting-IP标头添加到通过它的所有请求中;它添加True-Client-IP为需要向后兼容性的企业用户的同义词。这些标头的值是单个 IP 地址。我能找到的对这些标头的最完整描述听起来像是它们只是使用最左边的 XFF IP，但这个例子不够完整，我自己也尝试了一下。令人高兴的是，看起来他们实际上使用了最正确的方法。

Nginx 提供了一个默认未启用的模块，用于添加 X-Real-IP 标头。这也是一个单一的IP。正确且完全配置时6，它还使用不在“受信任”列表中的最右边的 IP。所以，最右边的IP。也不错。

同样，当配置为查看X-Forwarded-For 时，Apache 的mod_remoteip会选择最右边的不受信任的 IP 进行设置REMOTE_ADDR。

Akamai公司

Akamai 做了非常错误的事情，但至少对此发出了警告。以下是有关它如何处理X-Forwarded-For和True-Client-IP（原始强调）的文档：

X-Forwarded-For header is the default header proxies use to report the end user IP that is requesting the content. However, this header is often overwritten by other proxies and is also overwritten by Akamai parent servers and thus are not very reliable.
The True-Client-IP header sent by Akamai does not get overwritten by proxy or Akamai servers and will contain the IP of the client when sending the request to the origin.
True-Client-IP is a self provisioned feature enabled in the Property Manager.
Note that if the True-Client-IP header is already present in the request from the client it will not be overwritten or sent twice. It is not a security feature.
The connecting IP is appended to X-Forwarded-For header by proxy server and thus it can contain multiple IPs in the list with comma as separator. True-Client-IP contains only one IP. If the the end user uses proxy server to connect to Akamai edge server, True-Client-IP is the first IP from in X-Forwarded-For header. If the end user connects to Akamai edge server directly, True-Client-IP is the connecting public IP seen by Akamai.

相关位是“True-Client-IP是X-Forwarded-For标头中的第一个 IP”和“如果 True-Client-IP 标头已经存在于来自客户端的请求中，则不会被覆盖”。因此，True-Client-IP要么是最左边的 XFF IP，要么是保留客户端欺骗的原始值。只是最糟糕的事情。

但是，也有一句话“这不是安全功能”。嗯，这当然是真的。这个警告可以吗？没有大量 Akamai 用户出于安全相关目的使用True-Client-IP的可能性有多大？

（我不确定如何解释上面的内容，当它说 XFF 标头“被 Akamai 父服务器覆盖”时。当它说“覆盖”时，它是否意味着“附加到”？还是 Akamai 实际上吹走了现有的标头值？这将违背XFF的精神。

Fastly

Fastly 添加具有单个 IP 值的 Fastly-Client-IP 标头。我认为它使用了最正确的 XFF IP：

从本质上讲，Fastly-Client-IP是向 Fastly 发出请求的非 Fastly 事物。

但是：

该值在 Fastly 网络的边缘不受修改保护，因此如果客户端自己设置此标头，我们将使用它。如果你想防止这种情况[你需要做一些额外的配置]。

因此，默认情况下，它是微不足道的欺骗性的。同样，似乎很有可能有很多人将其默认行为用于与安全相关的目的，并使自己容易受到攻击。Fastly-Client-IP

原文地址：https://adam-p.ca/blog/2022/03/x-forwarded-for/

【译】基于MarkupLM的web数据抽取

2024-01-10T16:00:00.000Z

摘要

网站在当今数字时代已成为许多组织获取信息的关键来源。然而，从多个网站的网页中提取和组织半结构化数据存在挑战，尤其是在希望保持广泛适用性的同时实现高度自动化时。在追求自动化的过程中，自然而然的发展是将网页数据提取的方法从仅能处理单个网站扩展到通常在同一领域内处理多个网站。尽管这些网站共享相同的域，但数据的结构可能差异巨大。一个关键问题是在保持足够准确性的同时，这样的系统能够通用地涵盖大量网站。该论文检查了在多个瑞典保险公司网站上进行的自动化网络数据提取的效率。先前的工作表明，使用包含多个领域网页的已知英语数据集可以取得良好的结果。选择了最先进的模型MarkupLM，并使用监督学习使用两个预训练模型（一个瑞典模型和一个英语模型）在标记的汽车保险客户网络数据的训练集上进行零样本学习。结果显示，这样的模型可以通过利用预训练模型，在源语言为瑞典的情况下，以相对较小的数据集在领域范围内取得良好的准确性。

1、介绍

数字时代使互联网成为主要信息来源。互联网上的数据丰富且复杂度增加，同时对更复杂服务的需求也在不断增加。尽管有大量数据可供探索，一个关键挑战是在满足数据质量和有效性要求的前提下，尽可能高效而准确地提取和结构化信息。数据的结构范围从非结构化数据（如文本）到半结构化数据（如超文本标记语言（HTML））再到结构化数据，后者可以采用表格或数据库生成的HTML形式 [1, 2]。
尽管人类可以手动提取这些数据，但自动化这一过程是非常可取的，即最小化人工劳动、错误和干预。存在一些可自动提取信息的网络数据提取方法，但它们的使用高度依赖于泛化和鲁棒性要求。
另一种选择是网站提供 Web 应用程序编程接口（API），使用诸如 RESTful API 或 GraphQL API 等技术。然而，在本论文中不会探讨这种替代方案。
另一种选择是网页的行业标准格式。通过模板对网站进行一些标准化，如[3]所述，但本论文不会关注这种替代方案。

1.1、背景

自动化网络数据提取的一个主要问题是系统的灵活性和通用性。根据Sergio Flesca等人的说法，许多系统依赖于包装器，“一组适用于从网站提取信息的提取规则” [4]，这些规则与其训练时紧密耦合的网站的底层文档对象模型（DOM）[5]树结构相关。这使得系统对结构的变化非常敏感，除非进行包装器维护 [6]，同时在未在训练集中的网站上提取正确数据方面效果不佳。任何这类系统的一个极具吸引力的特征是从先前未见过的网站提取数据（即，它应具有泛化能力），并且在满足使用提取数据的应用程序的具体要求的同时保持足够的准确性。尝试在生成和维护这样的系统期间最小化涉及的手动人工劳动会进一步增加问题的复杂性。
问题的一个有趣的限定是将自动化网络数据提取系统的泛化能力缩小到一组具有一些相似之处的网站。其中一种方法是创建一个特定领域的系统，旨在从同一垂直（即领域）内的多个网站中提取相同类型的对象（例如，图书）。这使系统能够充分利用这些网站在信息和结构上潜在共享的相似之处。

1.2、问题

这个问题在很大程度上依赖于所需数据的复杂性（例如，结构水平和目标属性数量），以及目标领域网站表示（即，HTML布局）的相似性。另一个方面是网站的语言，这是一个依赖自然语言处理（NLP）从文本中提取语义意义的系统（即，模型）中的因素。在训练数据有限时，预训练表示通常对提高性能至关重要。虽然英语有大量高质量的预训练模型，但瑞典语的数量并不如此之多。问题的一个有趣方面是预训练表示对网页数据提取模型性能的影响。
一个带有监督学习的网络数据提取模型能够从未见过的瑞典保险网站中提取信息的效果如何？

1.3、宗旨

该论文旨在探索自动化从同一垂直内的多个网站中提取网络数据的可能性。具体而言，将使用瑞典保险网站的用户网页，其中包含其保险计划的摘要。这将有望为使用当前先进技术（SOTA）模型从瑞典保险网站提取数据的可能性和效率提供一些见解。

1.4、目标

该论文旨在确定一个适用的网络数据提取模型，然后在瑞典汽车保险网站上对其进行修改和评估。子目标包括：

获取数据集，
确定适用的模型，
修改模型，以及
评估模型。

1.5、研究方法

项目中采用的研究方法将是设计科学 [7]，并使用实验方法进行评估。设计科学是一种范式，其中通过设计的工件产生知识和解决方案。
该论文将采用 MarkupLM 模型（参见第2.4.5节），并进行必要的修改以使其与瑞典语兼容。该模型（即，工件）将通过实验评估，以确定它在测试数据集中从未见过的保险网站中提取数据的效果如何。准确性将使用三个指标进行测量：精确度、召回率和 F-分数（这些指标在第2.3节中描述）。

1.6、限制

该论文探讨并评估单一模型的变种，而非多个不同模型。所使用的数据将仅为瑞典语且为HTML格式。对于数据集的基准真实性，将不进行手动标注。相反，将使用公司（即，Insurely）开发的手工提取机制生成基准真实性。

1.7、结构

第二章介绍了有关自动化网络数据提取的相关背景信息。第三章介绍了解决问题所使用的方法和方法论。第四章描述了对先进技术（SOTA）模型的修改。第五章呈现了对模型进行评估的结果。第六章讨论了所获得的结果，最后第七章提出了论文的结论并提出未来的工作。

2、背景

这一章概述了与网页数据提取领域（第2.1节）和深度学习（第2.2节）相关的技术，这些技术可能在网页数据提取系统中使用。第2.3节描述了用于评估网页数据提取系统的一些性能指标。不同的网页数据提取方法和三个先进技术（SOTA）模型作为相关工作被介绍（第2.4节）。

2.1 网页数据提取

网页数据提取是指从网页中提取信息的过程。软件系统通过在内容更改时自动和重复地从网页中提取数据来执行网页数据提取 [8]。每个网页将如第2.1.1节所述表示，页面的特定部分将如第2.1.2节所述被处理。

2.1.1 文档对象模型

文档对象模型（DOM）是一个API，使得文档（如HTML和可扩展标记语言（XML）文档）能够被表示为逻辑树（如图2.1所示），由节点组成，每个节点包含对象。通过将文档表示为DOM，然后操作DOM，可以以编程方式更改网页（例如，结构、样式或内容）[5]。

2.1.2 XML路径语言

XML路径语言（XPath）以路径符号提供了一种灵活的方法来寻址XML或HTML对象的部分。XML路径语言（XPath）表达式可用于在HTML文件的DOM树中导航，而无需依赖DOM核心特性，例如Document和Node接口，这些接口提供了getElementById()和ChildNodes等方法和属性 [9]。图2.2显示了应用于同一HTML对象的两个XPath表达式的示例。

2.1.3 JavaScript对象表示法

JavaScript对象表示法（JSON）是一种轻量级的与语言无关的数据格式 [10]。JSON具有易于阅读和编写的文本格式，如图2.3所示。它基于两种结构：一组键/值对和一个有序列表。键/值对的集合称为对象，其中键/值对在左括号和右括号之间列出，键/值之间用冒号分隔。有序列表可以包含多个对象。

[
  {
    ”name”: ”Alice”,
    ”age” : 25
  },
  {
    ”name”: ”Bob”,
    ”age” : 26,
    ”height”: 174.5
  }
]

2.2 深度学习

深度学习是机器学习的一个子集，其中建模并训练神经网络，试图模拟人脑在学习过程中的行为 [11]。在深度学习中，需要较少的数据预处理，可以使用非结构化数据，如文本和图像。使用深度学习的一个显著优势是自动特征提取，机器决定哪些特征是相关的，而无需依赖人类专家。使深度学习网络“深”的主要因素包括层中神经元的数量、这些层之间连接的复杂方式以及训练网络所需的大量计算能力 [12]。
以下小节介绍了几个深度学习概念，这些概念对理解模型架构很重要，具体包括卷积神经网络（CNNs）（第2.2.1节）、循环神经网络（RNNs）（第2.2.2节）和变压器（第2.2.3节），以及迁移学习的概念（第2.2.4节）。

2.2.1 卷积神经网络

卷积神经网络（CNNs）是深度网络的主要架构之一，其目标是通过利用卷积进行特征检测，学习数据中的高阶特征。这通过对两组信息应用数学运算来实现 [12]。CNNs主要用于机器视觉（例如，图像分类），但也适用于文本分析。在建模数据（如图像）时，CNNs具有较高的计算效率，否则在全连接网络中可能导致连接数量激增。
主要的三个层组包括：输入层、特征提取层和分类层，如图2.4所示。架构各层之间的主要区别在于特征提取层，它包含两种类型的层：卷积层和池化层。

卷积层在数据中寻找特征，通过对输入应用滤波器将这些特征组合成高阶特征。图2.5中显示了一个这样的滤波器，其核（即，滤波器）向量的权重为[1/3, 1/3, 1/3]。在一层中可以应用多个不同的滤波器。在应用滤波器后，激活函数用于决定哪些神经元应该被激活并传播其值。两种这样的激活函数是修正线性单元（ReLU）和高斯误差线性单元（GELU）。线性函数ReLU对于所有非负输入都输出相应的输入，否则输出零，即max(0, x)。而GELU [13] 是一个更复杂的非线性函数，可以看作是ReLU的一个更平滑的版本。

池化层在卷积层之后使用，以减小（即，下采样）数据表示的空间大小。这有助于减少网络记忆训练数据的自由度（即，过拟合），而是迫使其进行学习泛化；因此，在未见过的数据上表现更好。最大池化是其中的一种常见变体，它选择滤波器区域中的最大值。

2.2.2 循环神经网络

RNN与其他类型的神经网络有所不同，因为它们具有对数据的时间维度（即，时间依赖性）进行建模的能力。RNN在每个输入（即，时间步）之间保留状态，它使用这些状态对数据进行建模，然后将状态传递到下一个时间步。这种时间反馈使模型能够捕捉上下文，特别是对于需要基于当前和先前输入生成/推断序列的敏感数据，如语言、音频和文本 [12]。
长短时记忆（LSTM）[14]是最常见的RNN架构之一。其主要优势在于它能够在时间步之间保持内存不变。这种特性使其能够克服梯度消失问题，即模型由于模型（即，权重）的更新变得非常小，导致模型停止学习，无法进一步捕获任何输入。

2.2.3 变压器

变压器是由Ashish Vaswani等人在他们的论文《Attention is all you need》[15]中提出的最新架构之一。它是一种完全基于注意机制而非循环或卷积的架构。与具有顺序性质的循环相比，这种结构在训练期间具有更大的并行性，其中新的隐藏状态是作为过去状态的函数而生成的。
变压器架构基于一个编码器-解码器结构，包括编码器和解码器堆栈，每个堆栈由六个相同的层组成。编码器堆栈负责将输入的符号序列映射为连续表示。解码器堆栈生成一个符号序列，其中每次生成一个符号，并在下一生成步骤中用作额外的输入。

2.2.4 迁移学习

迁移学习是通过从相关领域传递信息来改进某一领域中的学习者的一种方式。在神经网络中，由于需要更大的数据集来训练网络以避免过拟合 [16]，迁移学习可以发挥重要作用，特别是在训练集有限的情况下。与从头开始训练一个模型不同，可以利用已经使用与目标域相关的更大数据集进行训练的模型，用于任务如文本情感分析和图像分类 [17]。迁移学习可以在包含两个阶段的学习框架中形式化：预训练和微调 [18]。
预训练阶段包括捕捉一个或多个任务的知识。这可以通过大规模未标记的语料库来学习良好的表示，然后在其他任务中使用这个表示。预训练的一些优势包括学习通用语言表示、更好的模型初始化以及在小数据集上防止过拟合的正则化效果 [16]。微调阶段使用预训练模型，并进一步使用代表特定问题的较小数据集进行所谓的下游（即，目标）任务的训练。

2.3 评估指标

该模型的三个评估指标将是：精确度、召回率和F分数。在关注分类性能的机器学习应用中，这些是关键指标。
精确度衡量正类别的预测值，同时避免将负类别错误地分类为正类别 [19]。具体而言，正确定义的预测中实际正确的比例：

$精确度真正例真正例假正例$

召回率衡量正类别的预测值，同时避免将正类别错误地分类为负类别 [19]。具体而言，正确定义的预测与所有实际正类别的比例：

$召回率真正例真正例假负例$

F分数，即F1分数，是精确度和召回率之间的调和平均值。基于F-beta分数，其中精确度和召回率根据beta值具有不同的权重 [19]。当beta为1时，精确度和召回率具有相等的权重（即，相等的重要性）。

$精确度召回率精确度召回率$
$精确度召回率精确度召回率$

在优先考虑精确度或召回率的情况下，高度依赖于具体情境。由于它们通常对彼此产生相反的影响 [20]，最大化其中一个可能会降低另一个。在医学诊断中，假负例可能比假正例更昂贵（即，致命），因此在这种情况下可能更重要，应相应地加以权重。

2.4 相关工作

存在一些可以构建在其基础上的相关工作。具体而言，有关网络数据提取文献的调查（第2.4.1节），语言模型Bidirectional Encoder Representations from Transformers（BERT）（第2.4.3节）以及SOTA模型MarkupLM（第2.4.5节），本论文使用它们作为基础。

2.4.1 网络数据提取调查

Emilio Ferrara等人进行了一项调查，全面概述了网络数据提取领域的文献，并为网络数据提取应用提供了分类框架 [21]。他们确定了两种主要的算法方法：树匹配和机器学习算法。

2.4.1.1 树匹配算法

树匹配算法利用Web页面的半结构化特性，以HTML的形式表示为带有标签的有序根树，即DOM树。

这些类型的算法使用XPath语法处理DOM树中的特定元素。它们依赖于XPath表达式，以找到两个文档之间相似树的所谓树编辑距离匹配。类似于字符串编辑距离问题，两个有序树可以通过尽可能少的操作（即，节点删除、插入或替换）来相互转换以匹配。简单的树匹配算法 [22]是树编辑距离匹配问题的高效且易于实现的解决方案 [23]。

2.4.1.2 机器学习算法

机器学习算法是一种适用于具有不同结构的多个网站的领域特定提取的良好方法。这些算法依赖于手动标记的网站，以获取领域专业知识，一些最早使用机器学习的系统包括WIEN [24]、Rapier [25]和WHISK [26]。

WIEN专注于归纳学习技术，以自动生成包装器。生成的规则可能类似于“忽略所有字符，直到找到第一个’.’并提取餐厅名称，该字符串以第一个’:’结束。然后，再次忽略所有字符，直到找到’(‘并提取以’)’结束的字符串。” [27]。类似这样的规则会在存在多个对象的情况下重复，直到无法与其他对象匹配。

Rapier使用有限的句法和语义信息学习规则，而无需在文档之前进行解析或后处理。规则分为三种模式：前填充器、填充器和后填充器。其中前填充器和后填充器充当左右分隔符，而填充器模式描述目标信息结构。

WHISK生成可以处理各种结构的文档（从自由文本到HTML）的规则。这些规则是一种特殊类型的正则表达式（即，尝试与输入文本匹配的模式），由两个组件组成。第一个组件负责确定短语必须处于其中以使其相关的正确上下文，而另一个指定要提取的短语的哪些部分。

2.4.2 网页表提取调查

Shuo Zhang等人进行了一项调查 [28]，研究了有关网页表提取的文献。其目的是确定和描述几个网页表提取任务及其相互依赖关系。他们确定了六个主要类别，用于对文献进行分类。这些类别包括：表提取、表解释、表搜索、问题回答、知识库增强和表增强。

他们定义了一个表由以下元素组成：页面标题、标题、列、单元格、行、列和实体。提出了一种表分类方案，通过两个维度内容和布局来区分表。

2.4.2.1 表提取

表提取是在网页上检测和提取表格，然后以一致的格式存储的过程。在网上提取表格的第一步是过滤掉“不好的”表格（例如，用于布局或格式目的的表格）。这通常通过关系表分类来完成，以识别包含关系数据的表格。在这里，可以使用具有布局或内容类型特征的机器学习分类器。布局特征可以是行数、列数或平均单元格字符串长度。而内容类型特征可以是表体中非字符串数据的百分比、带

有数字字符的单元格的比例，或包含标签的单元格的比例。类似的方法也可以用于表头检测和表类型分类，前者检测表是否包含标题行或列，而后者根据预定义的分类法对表进行分类。

2.4.2.2 表解释

表解释旨在发现网页上表格的语义，以便对表格中的数据进行智能处理。使用分类法来了解表列的含义以及它们是否与其他列相关。主要的任务有列类型识别、实体链接和关系提取。

列类型识别涉及确定列类型并定位核心列（即，主体列），通常是最左边的列。实体链接是指检测实体（例如，人物、组织和地点），这对于揭示语义至关重要。关系提取旨在将一对列与其内容之间的关系关联起来。

2.4.2.3 表搜索

表搜索通过关键字查询返回带有排名列表的表，其中查询可以是一个表或多个关键字。主要有基于关键字和基于表的两种搜索类型。基于关键字的搜索返回给定关键字查询的表的排名列表。

2.4.2.4 问题回答

问题回答试图使用表格中的结构化数据回答自然语言处理问题。使用表格回答问题的主要挑战是将非结构化查询与表格中的结构化信息匹配。将查询解析为形式化表示的任务称为语义解析，其中生成逻辑表达式，可在知识库上执行。

2.4.2.5 知识库增强

知识库增强使用表格数据来探索、扩展或构建知识库。知识探索可以在具有属性搜索查询或实体关系查询的表格上进行。通过使用知识库进行注释，然后从表格中提取信息，可以扩展现有的知识库。如果表格包含丰富的信息，它可以转化为新的知识库。

2.4.2.6 表增强

表增强通过添加附加数据扩展现有表格。它可以分为三个任务：行扩展、列扩展和数据完成。行扩展通常应用于水平关系表。相反，列扩展通常通过查找相似的表格，然后评估这些表格中的列标题和值来添加额外的列。数据完成可以应用于整个列，通过匹配来自其他表格的类似列，或在单个单元格上使用机器学习算法，例如k最近邻或线性回归。

2.4.3 双向编码器表示转换器

Jacob Devlin等人提出了一种名为BERT的新语言表示模型 [29]。预训练语言模型已被证明可以在句子和标记级别的任务上提高几种自然语言处理问题。然而，以前的技术限制了预训练模型的体系结构选择，使其能够联合条件化左侧和右侧（即双向）上下文，这对于标记级别的任务如问答至关重要。BERT通过利用Transformer体系结构（第2.2.3节）和两个预训练目标实现了双向预训练。

该体系结构是一个多层双向Transformer编码器，并具有需要最小更改用于最终下游体系结构的属性。输入表示可以处理单个和多个句子作为输入序列，并以三种方式嵌入：令牌、段和位置嵌入。这三种嵌入求和以表示输入嵌入，如图2.6所示。一个令牌可以是三种情况之一：特殊的序列开始令牌（[CLS]），一个单词或一个分隔令牌（[SEP]）以区分句子。特定于序列中的令牌所属的段嵌入（例如，句子A或B）。位置嵌入编码了序列中令牌的位置。

两个目标，遮蔽语言建模（MLM）和下一句预测（NSP），在预训练期间被使用。MLM通过随机遮蔽输入标记的一部分，然后训练模型预测被遮蔽标记，使模型学习双向表示。NSP使模型学习两个句子之间的关系。选择两个句子A和B，其中句子B一半的时间被随机替换，要求模型预测句子B是否跟随句子A。

BERT使用两个数据集进行预训练：BooksCorpus [30]（800M字）和English Wikipedia（2500M字）。BERT是第一个基于微调的表示模型，在多个标记和句子级任务上取得了SOTA结果，如通用语言理解评估（GLUE）[31]、斯坦福问答数据集（SQuAD）[32]和带有对抗生成的情境（SWAG）[33]。

2.4.4 SimpDOM

Yichao Zhou等人探索了在相同垂直领域内从多个网站提取数据的可能性 [34]。他们提出的模型∗，称为SimpDOM，在使用Few-Shot Learning（FSL）准确提取未见网站的数据时取得了SOTA结果。

SimpDOM模型的主要思想是专注于HTML页面的DOM树表示，并为每个变量节点构建丰富的表示。该方法避免了昂贵的网页呈现过程，利用DOM树中节点属性值的语义。

该架构由DOM树简化模块、离散特征模块和文本编码器组成。DOM树简化模块提取具有不同值的所有节点的上下文（因为在数据点之间具有相同值的节点不感兴趣）。上下文是其友好节点（即附近节点）的特征。离散特征模块通过添加额外的离散特征（例如XPath、叶节点类型和相对节点位置）来增强节点表示。文本编码器是CNN-LSTM的组合，对字符和单词级特征进行编码。

使用Structured Web Data Extraction（SWDE）数据集对SimpDOM进行评估。该数据集最初由郝强等人创建 [35]，包含来自80个不同网站的124,000个标记页面，分为八个垂直领域（例如汽车、图书和电影），每个领域包含3到5个感兴趣的属性（例如标题和作者）。在每个垂直领域中，使用10个网站中的5个作为种子站点（即训练集中的站点），SimpDOM实现了93.75的平均F1分数。

SimpDOM的作者选择使用一个基于Global Vectors for Word Representation（GloVe）[36]架构训练的，包含60亿标记的著名预训练词嵌入来初始化他们的模型。

2.4.5 MarkupLM

Junlong Li等人研究了创建一个模型∗，能够解决多个文档理解任务，适用于视觉丰富的标记文档，如HTML和XML文件 [37]。任务包括文档理解、类型分类和视觉问答。通过利用DOM树，可以对文档的不同元素之间建模位置关系，而不是使用显式的2D表示，这对文档渲染的设备高度依赖。通过使用DOM树建模位置关系而不使用渲染的2D可视化，简化了预训练，同时仍然利用了文档布局。

BERT [29]体系结构被用作编码器，其中嵌入层扩展了额外的输入XPath嵌入。然后，该模型通过三个主要目标进行预训练：遮蔽标记语言建模（MMLM），节点关系预测（NRP）和标题页匹配（TPM）。MMLM是MLM的扩展，通过使用文本和标记作为输入，遮

2.4.6 DOM-LM

邓翔等人提出了一种能够解决类似文档理解任务的模型，与MarkupLM一样，利用了DOM树表示法，就像以前的工作所做的一样 [39]。该模型基于BERT（与MarkupLM相同），其参数是从预训练的BERT模型（对非结构化文本进行预训练）中初始化的，然后进一步训练以捕获HTML文档的结构和布局信息。该模型以两个目标进行预训练：遮蔽节点预测（MNP）和遮蔽标记预测（MTP）。MTP类似于BERT中执行的MLM目标（以及MarkupLM中的修改变体MMLM）。MNP通过不仅遮蔽输入标记而且遮蔽整个节点来进一步概括模型，以迫使模型学习树级上下文化，并对布局具有整体视图。

该模型的主要方法是将文档编码为一组子树，其中嵌入了位置信息，并采用了自监督预训练。首先通过去除与网页结构和语义无关的所有DOM节点（例如，