当前位置:网站首页>神经网络样本太少怎么办,神经网络训练样本太少
神经网络样本太少怎么办,神经网络训练样本太少
2022-08-10 06:50:00 【aifans_bert】
以下那些分类算法可以较好地避免样本不平衡问题A KNN BSVM C Bayes D神经网络 答案选A,求解释
。
KNN只是取了最近的几个样本点做平均而已,离预测数据较远的训练数据对预测结果不会造成影响,但是svm、Bayes和NN每一个训练样本果都会对预测结果产生影响,于是如果样本不平衡的话KNN的效果最好,举个极端一点例子:答案只有A与B,但是训练样本中A的个数占99%,而B只有1%,svm、Bayes和NN训练出来的结果,恐怕预测任何数据给出的答案都是A,但是KNN不会。
神经网络,训练样本500条,为什么比训练样本6000条,训练完,500条预测比6000条样本好!
并非训练样本越多越好,因课题而异rbsci。1、样本最关键在于正确性和准确性。你所选择的样本首先要能正确反映该系统过程的内在规律。
我们从生产现场采得的样本数据中有不少可能是坏样本,这样的样本会干扰你的神经网络训练。通常我们认为坏样本只是个别现象,所以我们希望通过尽可能大的样本规模来抵抗坏样本造成的负面影响。
2、其次是样本数据分布的均衡性。你所选择的样本最好能涉及到该系统过程可能发生的各种情况,这样可以极大可能的照顾到系统在各个情况下的规律特征。
通常我们对系统的内在规律不是很了解,所以我们希望通过尽可能大的样本规模来“地毯式”覆盖对象系统的方方面面。3、再次就是样本数据的规模,也就是你要问的问题。
在确保样本数据质量和分布均衡的情况下,样本数据的规模决定你神经网络训练结果的精度。样本数据量越大,精度越高。
由于样本规模直接影响计算机的运算时间,所以在精度符合要求的情况下,我们不需要过多的样本数据,否则我们要等待很久的训练时间。
补充说明一下,不论是径向基(rbf)神经网络还是经典的bp神经网络,都只是具体的训练方法,对于足够多次的迭代,训练结果的准确度是趋于一致的,方法只影响计算的收敛速度(运算时间),和样本规模没有直接关系。
如何确定何时训练集的大小是“足够大”的?
神经网络的泛化能力主要取决于3个因素:1.训练集的大小2.网络的架构3.问题的复杂程度一旦网络的架构确定了以后,泛化能力取决于是否有充足的训练集。
合适的训练样本数量可以使用Widrow的拇指规则来估计。
拇指规则指出,为了得到一个较好的泛化能力,我们需要满足以下条件(WidrowandStearns,1985;Haykin,2008):N=nw/e其中,N为训练样本数量,nw是网络中突触权重的数量,e是测试允许的网络误差。
因此,假如我们允许10%的误差,我们需要的训练样本的数量大约是网络中权重数量的10倍。
神经网络学习样本比如我有1000条数据,每条数据都是随机的,打乱顺序,有啥影响!
利用神经网络进行模式识别,训练时是不是必须要有对立的样本,才能实现分类?
支持向量机有单分类(oneclass)的模式,对应的一些神经网络也有类似的。单分类的作用其实是预处理,用于剔除离群点。
以您的这个例子来说,训练样本为你清晰并且确切的指纹特征,而实际工作的样本为你提取到的各种你自己的指纹特征,神经网络(SVM)所做的工作是区分哪些是你输入特征中有比较多有效信息的,而剔除掉不具有代表性或者受到干扰比较大的样本。
如果能够保证你的输入样本特征选取恰当并且噪声很小的时候,单分类模型的确可以用于分类。但是只能识别出哪些是你的指纹而哪些是其他人的指纹。
神经网络学习样本过多!会怎么样!
bp神经网络,如果学习样本数据过多,会不会变成统计学预测?
用bp神经网络预测样本数据,有很少部分出现了负值,如何避免啊,结果肯定大于0,不可能为负值的。求高手
边栏推荐
- Grammar Basics (Judgment Statements)
- order by injection and limit injection, and wide byte injection
- 大佬,oracle单表增量同步时候源库服务器额外占用内存近2g,这不正常吧
- 调试ZYNQ的u-boot 2017.3 不能正常启动,记录调试过程
- WooCommerce installation and rest api usage
- 2022 Henan Mengxin League No. 5: University of Information Engineering J-AC Automata
- If the data of the oracle business table is added, deleted, or modified, will the index of the table write redo and undo?
- 阿里巴巴(中国)网络技术有限公司、测试开发笔试二面试题(附答案)
- 第12章 数据库其它调优策略【2.索引及调优篇】【MySQL高级】
- 浅谈C语言实现冒泡排序
猜你喜欢
随机推荐
数据库学习之数据类型
I would like to ask you guys, when FLink SQL reads the source, specify the time field of the watermark. If the specified field is in the grid
3.事务篇【mysql高级】
mysql数据库定时备份(保留近7天的备份)
浏览器适配杂记
Tencent Cloud Song Xiang: Kubernetes cluster utilization improvement practice
MySQL之InnoDB引擎(六)
.NET-8.我的思想笔记
C language file operation
各位大佬,oracle11g,cdc2.2,flink1.13.6,单表增量同步。在没新增数据的情
PLSQL学习第一天
DGIOT支持工业设备租赁以及远程管控
关于MongoDb查询Decimal128转BigDecimal问题
C语言文件操作
软件测试面试题避雷(HR面试题)最常见的面试问题和技巧性答复
金融证券 初级 招股书 要求 黑话1刷数 黑话2底稿 黑话3董监高
Unity3d famous project-Dark Tree translation
深入理解LTE网络的CDRX
2022河南萌新联赛第(五)场:信息工程大学 B - 交通改造
复杂AB实验