five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

FaceMind公司发布Textual Frequency Paired Dataset (TFPD)数据集,应用在自然语言处理、机器翻译领域

五号数据雷达开源数据市场2026-04-04 05:3747
Textual Frequency Paired Dataset (TFPD)是FaceMind公司发布的数据集,于2026-04-02首发在arXiv应用于自然语言处理、机器翻译领域

FaceMind公司本次发布的数据集Textual Frequency Paired Dataset (TFPD),TFPD是由FaceMind公司和香港中文大学联合构建的文本频率配对数据集,包含数学推理(GSM8K)、机器翻译(FLORES-200)、常识推理和工具调用四个任务。数据集通过GPT-4o-mini生成高频和低频表达的句子对,并经过严格的人工语义一致性验证,最终保留738对数学推理和526对机器翻译数据。该数据集旨在研究文本频率对大型语言模型提示和微调的影响,为解决模型在语义相同但表达频率不同的文本上表现差异的问题提供基准。

查看Textual Frequency Paired Dataset (TFPD)

README内容:

 

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们