five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

加州大学伯克利分校 发布 WebLists 数据集, 应用在 网页数据抽取、自动化处理 领域

五号数据雷达开源数据市场2025-04-22 17:5929
WebLists 是 加州大学伯克利分校 发布的数据集,于 2025-04-17 首发在 arXiv 应用于 网页数据抽取、自动化处理 领域

加州大学伯克利分校 本次发布的数据集 WebLists, WebLists是一个包含200个数据抽取任务的基准数据集,这些任务跨越四个常见的商业和企业使用场景。每个任务都需要一个代理程序导航到网页,相应配置后抽取具有明确定义模式的完整数据集。数据集内容涉及导航、交互和数据抽取,数据规律性各异,旨在解决大规模网站上的结构化数据抽取问题。

查看WebLists

关于 加州大学伯克利分校 , 加州大学伯克利分校(University of California, Berkeley),简称UC Berkeley或Berkeley,是美国顶尖的公立研究型大学,位于美国加利福尼亚州伯克利市。它是加州大学系统中的一所分校,也是世界著名的学府之一,在多个学术领域都有卓越的表现。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们