摘要
网站在当今数字时代已成为许多组织获取信息的关键来源。然而,从多个网站的网页中提取和组织半结构化数据存在挑战,尤其是在希望保持广泛适用性的同时实现高度自动化时。在追求自动化的过程中,自然而然的发展是将网页数据提取的方法从仅能处理单个网站扩展到通常在同一领域内处理多个网站。尽管这些网站共享相同的域,但数据的结构可能差异巨大。一个关键问题是在保持足够准确性的同时,这样的系统能够通用地涵盖大量网站。该论文检查了在多个瑞典保险公司网站上进行的自动化网络数据提取的效率。先前的工作表明,使用包含多个领域网页的已知英语数据集可以取得良好的结果。选择了最先进的模型MarkupLM,并使用监督学习使用两个预训练模型(一个瑞典模型和一个英语模型)在标记的汽车保险客户网络数据的训练集上进行零样本学习。结果显示,这样的模型可以通过利用预训练模型,在源语言为瑞典的情况下,以相对较小的数据集在领域范围内取得良好的准确性。