python spark 機器學(xué)習_MRS Spark Python
在Python中使用Spark進(jìn)行機器學(xué)習,器學(xué)我??們首先需要安裝pyspark和pyspark.ml庫,器學(xué)PySpark是器學(xué)Apache Spark的Python API,而pyspark.ml則是器學(xué)一個(gè)用于???機器學(xué)習的庫。
(圖??片來(lái)源網(wǎng)┐(′?`)┌絡(luò ),器學(xué)侵刪)安裝完成后,器學(xué)我們可以開(kāi)始使用這些庫??來(lái)處理數據和訓練模型,器學(xué)以下是器學(xué)一個(gè)簡(jiǎn)單的例子,我們將使用Spark讀取CSV文件,器學(xué)然后使用決策樹(shù)分類(lèi)器(′?ω?`)對數據進(jìn)行訓練。器學(xué)
1、器學(xué)導入所需的器學(xué)庫:
from pyspark.sql import SparkSessionfrom pyspark.ml.classification import DecisionTreeClassifierfrom pyspark.ml.feature import StringIndexer, VectorAs(?????)sembler
spar(′▽?zhuān)?k = SparkSession.builder.appName('ml_example').getOrCreate()3、器學(xué)讀取CSV文件(′▽?zhuān)?):
df = spark.read.csv('data.csv',器學(xué) inferSchema=True, header=True)4、預處理(li)數據:
indexer = StringIndexer(inputCol(′?ω?`)='category',器學(xué) outpu??tCol='categoryIndex')assembler = VectorAssembler(inputCols=['feature1', 'feature2', 'categoryIndex'], outputCol='featurヾ(′?`)?es')df? = indexer.setHandleInvalid('skip').transform(df)df = assembler.transform??(df)5、劃分訓練集和測試集:
train_data, test_da??ta = df.randomSplit([0.7, 0.3])
6??、創(chuàng )建決( ?° ?? ?°)策樹(shù)分類(lèi)器并訓練模型:
d??t = DecisionTreeClassifier(labelCol='label', featuresCol='features')model = dt.fit(t??rain_data)
7、使用模型進(jìn)行預測:
predictions = model.transform(test_data)
8、評估模型:
evaluator = BinaryClassificationEvaluator()print('Test Area Under ROC: ' + str(evaluator.evaluate(predictions)))以(yi)上代碼首先導入了所需??的庫,然后創(chuàng )建了一個(gè)Spark會(huì )話(huà),接著(zhù),它讀取了一個(gè)CSV文件,??并對數據進(jìn)行了預處理,它將數據劃分為訓練集和測試集,創(chuàng )建了一個(gè)決策樹(shù)分類(lèi)器,并用訓練數據對模型進(jìn)行了訓練,它使??用模型對測試數據進(jìn)行了預測,并評估了模型的性能。





