德克萨斯A&M大学 本次发布的数据集 FreeSet, FreeSet 是一个开源的 Verilog 数据集,包含超过 22 万个文件,总文本数据超过 16GB。该数据集的创建是为了解决在硬件设计中使用大型语言模型(LLM)时可能出现的版权侵犯问题。数据集的创建过程包括从 GitHub 提取开源 Verilog 文件,并使用自动化框架对每个文件进行许可证和版权关键词的检查,以确保数据集不包含受版权保护的代码。FreeSet 旨在用于对 LLM 进行微调,以生成功能性的 Verilog 代码,同时最小化版权侵犯的风险。该数据集已被用于训练 FreeV 模型,该模型在 Verilog 代码生成方面表现出色,并且版权侵犯率仅为 3%。FreeSet 的创建和应用有助于推动 LLM 在硬件设计领域的应用,同时确保版权合规。
关于 德克萨斯A&M大学 , 德克萨斯A&M大学是美国德克萨斯州的一所公立研究型大学,成立于1876年,是美国南方最大的大学之一,提供多种本科和研究生课程,在工程、商业、科学和技术等领域享有盛誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)