支持向量机算法和软件ChemSVM是一款教学软件,它是支持向量机算法和软件,可以解决小样本难题。体积小,但功能强大。界面非常清爽,简单易操作。
支持向量机算法和软件ChemSVM由于计算机技术的发展,机器学习(包括线性和非线性回归、人工神经网络、模式识别算法等)已成为处理化学化工数据,总结经验规律,据以预报未知或控制生产过程的常规手段。但是,传统的机器学习算法都以经典统计数学的渐近理论为依据。该理论的大数定理规定:统计规律只有在已知样本数无限多时才显露出来。但化学化工实际工作中已知样本总是有限的。忽视这一矛盾是造成实际计算中过拟合弊病的重要原因。针对经典统计数学这一弱点,Vapnik学派提出了“统计学习理论”和“支持向量机算法”。新算法既能处理非线性问题,又能抑制传统算法(如人工神经网络等)常遇到的过拟合弊病。本专刊中的论文系列工作表明:支持向量机算法在分析化学的多变量校正、数据处理、商品检验、相图和新化合物的计算机预报、新材料制备的实验设计、环境污染的建模和预报,以及分子设计,药物设计等领域的应用都有良好效果。在多数情况下所建的数学模型较传统算法的结果有更好的预报正确率。这一新算法将会成为化学、化工领域数据处理广泛应用的新计算工具。
1、不需要很多样本,不需要有很多样本并不意味着训练样本的绝对量很少,而是说相对于其他训练分类算法比起来,同样的问题复杂度下,SVM需求的样本相对是较少的。并且由于SVM引入了核函数,所以对于高维的样本,SVM也能轻松应对。
2、结构风险最小。这种风险是指分类器对问题真实模型的逼近与问题真实解之间的累积误差。
3、非线性,是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也叫惩罚变量)和核函数技术来实现,这一部分也正是SVM的精髓所在。
Vladimir N.Vapnik等提出的统计学习理论(statistical learning theory,简称SLT)和支持向量机(support vector machine,简称SVM)算法已取得令人鼓舞的研究成果。本文旨在对这一新理论和新算法的原理作一介绍,并展望这一计算机学界的新成果在化学化工领域的应用前景。