1、“.....,,,,,,,,,,,,,,,,,,,,,,,,,,,,最近邻。算法假设所有的实例对应于维空间中的点。个实例的最近邻是根据标准欧氏距离定义,设的特征向量为其中,表示实例的第个属性值。两个实例和间的距离定义为其中,在最近邻学习中,离散目标分类函数为其中是有限集合,即各不同分类集......”。
2、“.....对不同的应用可以选取不同的值。如果未知样本的周围的样本点的个数较少,那么该个点所覆盖的区域将会很大,反之则小。因此最近邻算法易受噪声数据的影响,尤其是样本空间中的孤立点的影响。其根源在于基本的最近邻算法中,待预测样本的个最近邻样本的地位是平等的。在自然社会中......”。
3、“.....通常是距离越近的对象对其影响越大。近邻法研究方法该算法没有学习的过程,在分类时通过类别已知的样本对新样本的类别进行预测,因此属于基于实例的推理方法。如果取等于,待分样本的类别就是最近邻居的类别,称为算法。只要训练样本足够多,算法就能达到很好的分类效果......”。
4、“.....算法的分类误差最差是最优贝叶斯误差的两倍另外,当趋近于∞时,算法的分类误差收敛于最优贝叶斯误差。下面对近邻算法描述输入训练数据集,其中是第个样本的条件属性,是类别,新样本,距离函数。输出的类别。计算和之间的距离对距离排序,得到选择前个样本统计中每个类别出现的次数,确定的类别......”。
5、“.....这样才能保证最近邻有利于预测,选择训练数据集的原则是使各类样本的数量大体致,另外,选取的历史数据要有代表性。常用的方法是按照类别把历史数据分组,然后再每组中选取些有代表性的样本组成训练集。这样既降低了训练集的大小......”。
6、“.....确定距离函数距离函数决定了哪些样本是待分类本的个最近邻居,它的选取取决于实际的数据和决策问题。如果样本是空间中点,最常用的是欧几里德距离。其它常用的距离函是由绝对距离平方差和标准差。决定的取值邻居的个数对分类的结果有定的影响,般先确定个初始值,再进行调整,直到找到合适的值为止......”。
7、“.....从邻居中选择个出现频率最高的类别作为最后的结果,如果频率最高的类别不止个,就选择最近邻居的类别。权重法是较复杂的种方法,对个最近邻居设置权重,距离越大,权重就越小。在统计类别时,计算每个类别的权重和,最大的那个就是新样本的类别......”。
8、“.....因此开发环境需要考虑数据库系统和开发语言两方面。数据库系统的选择数据处理主流技术分析在数据处理领域关系型数据库技术处于统治地位,它以关系数学简单的关系模型为基础,以为处理工具,得到了广泛的应用,其技术特征决定更擅长结构化数据处理应用,近年来各厂商在关系型数据库基础上拓展功能......”。
9、“.....典型的产品包括等。而针对海量结构化数据处理,则还有如等多维数据库系统。有关本设计的重要特点数据挖掘方面在数据挖掘应用中,引进四个新的数据挖掘运算法,改进的工具和精灵,它们会使数据挖掘,对于任何规模的企业来说,都变得简单起来。开发环境方面使用......”。
1、手机端页面文档仅支持阅读 15 页,超过 15 页的文档需使用电脑才能全文阅读。
2、下载的内容跟在线预览是一致的,下载后除PDF外均可任意编辑、修改。
3、所有文档均不包含其他附件,文中所提的附件、附录,在线看不到的下载也不会有。