FaceMind公司本次发布的数据集Textual Frequency Paired Dataset (TFPD),TFPD是由FaceMind公司和香港中文大学联合构建的文本频率配对数据集,包含数学推理(GSM8K)、机器翻译(FLORES-200)、常识推理和工具调用四个任务。数据集通过GPT-4o-mini生成高频和低频表达的句子对,并经过严格的人工语义一致性验证,最终保留738对数学推理和526对机器翻译数据。该数据集旨在研究文本频率对大型语言模型提示和微调的影响,为解决模型在语义相同但表达频率不同的文本上表现差异的问题提供基准。
查看Textual Frequency Paired Dataset (TFPD)
README内容:
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)