具有表格基础模型的小数据的准确预测

  我们在两个数据集集合上进行定量评估TABPFN:Automl Benchmark36和OpenML-CTR2337。这些基准包括各种现实世界的表格数据集,策划了复杂性,相关性和域多样性。从这些基准测试中,我们使用29个分类数据集和28个回归数据集,这些数据集最多具有10,000个样本,500个功能和10个类。我们进一步评估了Refs的其他基准套件。14,15,以及五次kaggle比赛。   我们将TABPFN与最新的基线进行了比较,包括基于树的方法(Random Forest38,XGB)7,Catboost9,LightGBM8),线性模型,支持向量机(SVMS)39和MLPS34。   评估指标包括ROC AUC(接收器操作特征曲线下的区域;一VS式)和分类的准确性,以及R2(确定系数)和负RMSE(均方根误差)以进行回归。每个数据集的得分归一化,其中1.0代表所有基线的最佳和0.0表现最差的性能。   对于每个数据集和方法,我们使用不同的随机种子和火车检验拆分进行了10次重复(90%的火车,10%测试)。我们使用随机搜索和五倍的交叉验证对超参数进行调整,时间预算范围从30 s到4 h。使用八个CPU核心评估所有方法,并使用TABPFN使用消费级GPU(RTX 2080 Ti;其他方法没有受益,请参见扩展数据图2D)。TABPFN曾经在2周内使用八个NVIDIA RTX 2080 GPU进行了预训练,从而可以在单个正向通行证中在所有新数据集中进行ICL。这些适度的计算要求使学术实验室可以访问类似的研究。有关详细信息,请参阅“详细评估协议”部分。   图4A与XGBoost,Catboost和随机森林的调谐和默认配置相比,TABPFN的开箱即用表现强劲。对于分类任务,TABPFN在默认设置中超过了最强的默认基线,最强的默认基线(比标准化的RocAUC相比为0.939,为0.939),在调谐设置中,TABPFN在默认设置中超过了0.187(0.952),在0.13(0.952)(0.952)(0.952)。对于回归,TABPFN在默认设置中比标准化RMSE的CATBOOST优于0.051(0.923),而在默认设置中为0.093(0.968(0.968),而在调谐设置中为0.875)。在图4B中,我们显示了人均比较。尽管对于某些数据集,CATBOOST的表现优于TABPFN,但TABPFN在大多数数据集上都赢了。   图4C显示了TABPFN和基准的性能如何通过在超参数搜索上花费更多的时间来改善。TABPFN的默认值,平均分类为2.8 s和4.8 s的回归,即使将它们调整为4 h时,也要胜过所有基准,分别为5,140×和3,000×。我们在扩展数据表1和2中显示了对大量指标的比较。   如图2所示,与我们的主要基准相似,TABPFN在参考文献的基准上大大优于所有基准。14,15。参考的基准。14特别值得注意,因为在此基准测试中,以前发现基于树的方法表现出色。此外,我们在扩展数据表中显示,默认的TABPFN在所有五个Kaggle竞赛中都默认了catboost,其中最新完整的表格游乐场系列中的少于10,000个培训样本。   在图5a,b中,我们显示了TABPFN对数据集特性的鲁棒性,这些特征传统上很难处理基于神经网络的方法14,23。   图5a提供了对TABPFN在各种数据集类型中的性能的分析。首先,我们添加了非信息功能(原始数据集中的随机洗牌特征)和离群值(将每个单元格乘以2%的概率,随机数在0和异常因子之间)。结果表明,TABPFN对于非信息性特征和离群值非常强大,这通常对于神经网络而言,这通常是很难的,正如MLP基线可以看到的那样。其次,尽管删除样品或功能会损害所有方法的性能,但一半的样本TABPFN仍然可以使用所有样品,而使用所有样品的下一个最佳方法。   在图5B中,我们将测试数据集分为子组并进行每个子组进行分析。我们根据数据集中的分类特征,缺失值,样本数量和功能数量创建子组。样本和特征数字子组被拆分,使三分之一的数据集属于每个组。我们可以看到,这些特征都没有强烈影响TABPFN相对于其他方法的性能。但是,我们注意到,不应将这些结果作为证据表明TABPFN尺度远远超出了此处考虑的10,000个样本和500个功能。我们在扩展数据中显示了另外四个消融图1。   我们将TABPFN的性能与Autogluon 1.0(参考文献40)进行了比较,该功能将包括我们的基准在内的各种机器学习模型结合在一起,将其堆叠在一起的综合41,调整其超级参数,然后使用事后HOC ENKBLOBLE(PHE)(PHE)42,43生成最终预测。因此,与单个基准相比,它代表了不同类别的方法。   为了评估TABPFN是否也可以通过调整的集合方法改进,我们介绍了TABPFN(PHE)。TABPFN(PHE)自动将TABPFN模型与PHE组合在一起,并使用我们的搜索空间中的随机投资组合对其超参数进行调整。我们在“ TABPFN(PHE)”部分中详细介绍了此方法。   图5C – D比较了TABPFN,TABPFN(PHE),Autogluon和Catboost的性能。对于TABPFN(PHE)和AutoGluon,我们从最小预算开始进行调整,因为AutoGluon否则不会可靠地返回结果。在仅2.8 s中,即使允许使用autogluon,TABPFN(默认值)即使允许4小时,也是5.140×速度。TABPFN(PHE)进一步提高了性能,导致平均归一化ROC AUC得分为0.971,而TABPFN(默认值)为0.939,而自动卢隆(Autogluon)为0.914。对于回归任务,调整超参数更为重要。在这里,TABPFN(PHE)在其最小调整预算为300 s(48×速度)之后,均优于Autogluon(允许4 h)。

本文来自作者[lejiaoyi]投稿,不代表言希号立场,如若转载,请注明出处:https://lejiaoyi.cn/zlan/202506-857.html

(8)
lejiaoyi的头像lejiaoyi签约作者

文章推荐

发表回复

作者才能评论

评论列表(3条)

  • lejiaoyi的头像
    lejiaoyi 2025年06月17日

    我是言希号的签约作者“lejiaoyi”

  • lejiaoyi
    lejiaoyi 2025年06月17日

    本文概览:  我们在两个数据集集合上进行定量评估TABPFN:Automl Benchmark36和OpenML-CTR2337。这些基准包括各种现实世界的表格数据集,策划了复杂性,相关...

  • lejiaoyi
    用户061711 2025年06月17日

    文章不错《具有表格基础模型的小数据的准确预测》内容很有帮助

联系我们

邮件:言希号@gmail.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信