喜提Nature正刊!小样本机器学习突破性新方法来了!
创作时间:
作者:
@小白创作中心
喜提Nature正刊!小样本机器学习突破性新方法来了!
引用
CSDN
1.
https://blog.csdn.net/weixin_42645636/article/details/145734583
前不久,Nature发表了一篇小样本机器学习论文,讲的是一个表格处理模型TabPFN,平均2.8s解读任意表格,开箱即用,在精度和速度上实现了突破性进展。
有人说这是电子表格的ChatGPT时刻,倒也不夸张,本身小样本机器学习对于解决数据稀缺问题就十分重要(应用场景多),如今也正处于快速发展阶段(创新空间大),关于它的研究一直是热门,现在有了如此突破,后续发展态势必将更加火爆。
目前,小样本机器学习尚有很多问题没解决,对于科研人来说,潜在创新方向或可考虑:模型架构优化、数据增强技术、跨领域迁移与泛化、绿色高效算法、安全与鲁棒性研究...
如果打算深入研究,建议看看我整理的12篇小样本机器学习论文,都是前沿成果,有参考会更容易找到思路,代码也附上了,方便各位复现。
全部论文+开源代码需要的同学看文末
Accurate predictions on small data with a tabular foundation model
方法:文章介绍的TabPFN主要针对的是小样本机器学习场景,尤其是处理小到中等规模的表格数据,通过在合成数据上预训练和改进的Transformer架构,TabPFN实现了快速高效的训练与预测,显著优于传统方法,同时具备数据生成和可解释性等基础模型特性。

创新点:
TabPFN利用上下文学习(ICL)框架,通过生成大量合成表格数据集并训练一个基于Transformer的神经网络,自动学习和解决这些合成预测任务。
TabPFN在表格数据建模中表现出色,特别是在中小型数据集(最多10,000个样本和500个特征)上。
TabPFN不仅具备强大的预测性能,还展现出基础模型的特性,如数据生成、密度估计和可重用嵌入的学习。
Enhancing Few-Shot Learning with Integrated Data and GAN Model Approaches
方法:论文提出了一种小样本机器学习方法,通过结合GAN生成数据增强和模型微调,并利用MCMC采样与判别模型集成策略来校正GAN的生成和判别分布,同时采用MHLoss优化模型微调过程,从而提升模型在小样本数据上的性能和泛化能力。

创新点:
通过将生成对抗网络(GAN)与马尔可夫链蒙特卡洛(MCMC)采样相结合,提出了一种创新框架。
通过引入MHLoss和重新参数化的GAN集成策略,研究增强了模型的稳定性和加速了收敛过程。
通过MCMC采样和判别模型集成策略的结合,可以显著提高生成数据的真实性。

Few-shot image classification based on gradual machine learning
方法:论文提出了一种基于渐进式机器学习(GML)的小样本图像分类方法,通过深度网络提取图像特征,并利用因子图逐步对未标记样本进行分类,优先处理较简单的样本。这种方法显著提升了小样本学习的分类精度,并表现出更强的鲁棒性。
创新点:
提出了一种基于非i.i.d渐进式机器学习(GML)范式的新方法,通过在因子图中逐步进行因子推理,逐步对未标记样本进行分类。
设计了一个由一元和二元单调因子组成的因子图模型,这些因子可以通过现有的深度学习骨干网络轻松提取,从而实现少样本图像分类的渐进学习。
Ehrshot: An ehr benchmark for few-shot evaluation of foundation models
方法:论文提出了一个名为EHRSHOT的电子健康记录(EHR)数据集,用于评估基础模型在小样本学习中的表现。他们定义了15个临床预测任务,并预训练了一个1.41亿参数的模型CLMBR-T-base。通过在小样本场景下测试,展示了预训练模型在低数据量任务中的优势。
创新点:
发布了一个名为EHRSHOT的新数据集,包含来自斯坦福医学的6,739名患者的去识别化电子健康记录(EHR)结构化数据。
公开了CLMBR-T-base模型的权重,这是一个基于2.57百万患者的结构化EHR数据预训练的141M参数的临床基础模型。
定义了15个少样本临床预测任务,以评估基础模型在样本效率和任务适应性方面的优势。
热门推荐
牵手阿森纳,打造中国少年足球“兵工厂”
蛇龙虎春联:生肖文化在现代的传承与情感寄托
体检人群甲状腺功能检测管理专家共识
网贷协商还款后如何确保其合法性与成功?——确认真实性的探讨
接到这个电话千万别挂→
常用高分辨率卫星影像图源介绍
一个人转运的最好方式:永远不要回应负能量
综述 | 肝癌外科治疗的最新进展
AIGC应用员成“香饽饽” 部分岗位月薪超3万元
人生控制图全解析:拥抱掌控,告别焦虑
房产证,红本还是绿本?两者差别很大,多数人还不知道
狗狗也会气喘?小心是狗气管塌陷的预兆!如何预防及照护治疗全掌握
ESG岗位:如何打入蓬勃发展的可持续性产业
亚龙湾旅游景区百科全书:全面介绍亚龙湾旅游景区
夺冠后微微一笑,中国射击队为何全员“淡人”?
伤筋动骨一百天,该怎么补?这些调养气血的药膳方学起来
“小清新”瓦拉日丁:藏在克罗地亚内陆的中世纪遗梦
前壁心肌梗死是什么原因引起的
火山喷发会给气候带来什么影响?
数学括号的运算法则 数学中括号用法口诀
河南开封必吃的地道美食:17家本地老店全攻略(建议收藏)
南瓜种植的最佳季节与方法(南瓜在哪个季节种植最好)
2025核物理专业就业前景及方向:好找工作吗?
庭院地铺石选购与铺设全攻略:材料、尺寸、垫层到排水设计
揭秘夷陵之战:诸葛亮为何未随刘备出征?
青苹果竹芋怎么养才能爆盆?紧抓这6点,花开多多!
万事从心起,看淡一身轻
“间质性肺炎”是“肺炎”吗?——此肺炎非彼肺炎
解决求职前战略困惑
电影市场景气洞察包括哪些关键指标?