爱尔兰都柏林大学学院 本次发布的数据集 MLRan, MLRan是一个大型的行为性勒索软件数据集,包含超过4800个样本,跨越64个勒索软件家族和一个平衡的良性软件样本集。样本时间跨度从2006年到2024年,涵盖了四大主要类型的勒索软件:锁屏、加密、勒索软件即服务和现代变种。数据集专注于针对Windows系统的勒索软件,因为它涵盖了95%的勒索软件文件。MLRan捕获了九个关键行为特征,包括API调用、注册表键、文件和目录操作、字符串、网络活动、系统进程、丢弃的文件和数字签名。此外,论文提出了构建高质量行为勒索软件数据集的指南(GUIDE-MLRan),并使用这些指南确保了MLRan数据集的严格管理。为了简化恶意软件的动态分析,论文中提到了增强Cuckoo Sandbox的功能,以自动化文件提交和分析结果排序。为了降低数据维度,论文提出了一种基于互信息过滤的特征选择策略,将最初的640万个特征减少到24162个,然后通过递归特征消除得到483个高度信息化的特征。最后,论文使用SHAP和LIME等可解释AI技术分析了关键勒索软件行为,并公开了数据集和工具实现,以支持可重复性和鼓励未来研究。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)