Contributing community of activists, developers, and journalists 本次发布的数据集 NewsHomepages, 该数据集包含了超过3000个新闻网站首页,在三年时间内每天两次捕获的数据,旨在研究新闻版面中的信息优先级。数据集不仅包括网页链接、全页截图,还为一部分页面提供了压缩的HTML快照。目前,该数据集仍在持续收集中,并得到了社区贡献。总计有363,340个快照,来自3,489个新闻首页。这项工作的任务是分析首页布局及其编辑提示。
README 内容:
关于 Contributing community of activists, developers, and journalists , -
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。




_1769672084863.jpg)