明霞山资源网 Design By www.htccd.com
随机森林是由许多决策树构成,是一种有监督机器学习方法,可以用于分类和回归,通过合并汇总来自个体决策树的结果来进行预测,采用多数选票作为分类结果,采用预测结果平均值作为回归结果。
“森林”的概念很好理解,“随机”是针对森林中的每一颗决策树,有两种含义:第一种随机是数据采样随机,构建决策树的训练数据集通过有放回的随机采样,并且只会选择一定百分比的样本,这样可以在数据集合存在噪声点、异常点的情况下,有些决策树的构造过程中不会选择到这些噪声点、异常点从而达到一定的泛化作用在一定程度上抑制过拟合;第二种随机是特征随机,训练集会包含一系列特征,随机选择一部分特征进行决策树的构建。通过这些差异点来训练的每一颗决策树都会学习输入与输出的关系,随机森林的强大之处也就在于此。
废话不多说,直接上代码:
from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.ml.linalg import Vectors from pyspark.ml.feature import StringIndexer from pyspark.ml.classification import RandomForestClassifier from pyspark.sql import Row import pandas as pd from sklearn import metrics if __name__ == "__main__": appname = "RandomForestClassifier" master ="local[4]" conf = SparkConf().setAppName(appname).setMaster(master) #spark配置 spark=SparkSession.builder.config(conf=conf).getOrCreate()#spark实例化 #读取数据 data=spark.read.csv('良恶性乳腺癌数据.csv',header=True) #构造训练数据集 dataSet = data.na.fill('0').rdd.map(list)#用0填充空值 trainData, testData= dataSet.randomSplit([0.7, 0.3], seed=7) trainingSet = trainData.map(lambda x:Row(label=x[-1], features=Vectors.dense(x[:-1]))).toDF() train_num = trainingSet.count() print("训练样本数:{}".format(train_num)) #使用随机森林进行训练 stringIndexer = StringIndexer(inputCol="label", outputCol="indexed") si_model = stringIndexer.fit(trainingSet) train_tf = si_model.transform(trainingSet) train_tf.show(5) rf = RandomForestClassifier(numTrees=100, labelCol="indexed", seed=7) rfModel = rf.fit(train_tf) #输出模型特征重要性、子树权重 print("模型特征重要性:{}".format(rfModel.featureImportances)) print("模型特征数:{}".format(rfModel.numFeatures)) #预测测试集 testSet = testData.map(lambda x:Row(label=x[-1], features=Vectors.dense(x[:-1]))).toDF() test_num=testSet.count() print("测试样本数:{}".format(test_num)) si_model = stringIndexer.fit(testSet) test_tf = si_model.transform(testSet) predictResult = rfModel.transform(test_tf) predictResult.show(5) spark.stop() #将预测结果转为python中的dataframe columns=predictResult.columns#提取强表字段 predictResult=predictResult.take(test_num)# predictResult=pd.DataFrame(predictResult,columns=columns)#转为python中的dataframe #性能评估 y=list(predictResult['indexed']) y_pred=list(predictResult['prediction']) y_predprob=[x[1] for x in list(predictResult['probability'])] precision_score=metrics.precision_score(y, y_pred)#精确率 recall_score=metrics.recall_score(y, y_pred)#召回率 accuracy_score=metrics.accuracy_score(y, y_pred)#准确率 f1_score=metrics.f1_score(y, y_pred)#F1分数 auc_score=metrics.roc_auc_score(y, y_predprob)#auc分数 print("精确率:",precision_score )#精确率 print("召回率:",recall_score )#召回率 print("准确率:",accuracy_score )#准确率 print("F1分数:", f1_score)#F1分数 print("auc分数:",auc_score )#auc分数
运行结果:
标签:
pyspark,随机森林
明霞山资源网 Design By www.htccd.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
明霞山资源网 Design By www.htccd.com
暂无评论...
P70系列延期,华为新旗舰将在下月发布
3月20日消息,近期博主@数码闲聊站 透露,原定三月份发布的华为新旗舰P70系列延期发布,预计4月份上市。
而博主@定焦数码 爆料,华为的P70系列在定位上已经超过了Mate60,成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢?
根据目前爆料的消息来看,华为P70系列将推出三个版本,其中P70和P70 Pro采用了三角形的摄像头模组设计,而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智,但辨识度绝对拉满。