国产激情精品久久久久久碰,国内丝袜无码一区二区,国产国产免费自在先拍

使用機器學習和深度學習模型預測汽車價格

2023-06-05 11:18

磐創(chuàng)AI

關注

目標

在本文中，我們將對二手車定價做出預測。我們將使用不同的架構開發(fā)多種機器學習和深度學習模型。最后，我們將比較機器學習模型與深度學習模型的性能。

使用的數(shù)據(jù)

在這種情況下，我們使用了 kaggle 數(shù)據(jù)集。

有 17 個不同的變量：

IDPrice: 汽車價格(目標欄)LevyManufacturerModelProd. yearCategoryLeather interiorFuel typeEngine volumeMileageCylindersGear box typeDrive wheelsDoorsWheelColorAirbags

要獲取數(shù)據(jù)并將其用于你的調(diào)查，請單擊以下鏈接 -

https://www.kaggle.com/datasets/deepcontractor/car-price-prediction-challenge

數(shù)據(jù)檢查

我們將在這部分查看數(shù)據(jù)。首先，讓我們看看數(shù)據(jù)中的列及其數(shù)據(jù)類型，以及任何缺失值。

數(shù)據(jù)集的信息

我們可以看到數(shù)據(jù)集有 19237 行 18 列。

有五個數(shù)字列和十三個類別列。我們可以立即觀察到數(shù)據(jù)中沒有缺失數(shù)字。

“Price”列/特征將是項目的目標列或相關特征。

讓我們看看數(shù)據(jù)分布。

數(shù)據(jù)準備

在這里，我們將清理數(shù)據(jù)并為模型訓練做準備。

“ID”列

我們刪除“ID”列，因為它與汽車價格預測無關。

Levy 列

檢查'Levy'列后，我們發(fā)現(xiàn)它確實包含缺失值，但它們在數(shù)據(jù)中表示為'-'，這就是為什么我們無法在數(shù)據(jù)中更早地捕獲缺失值.

在這種情況下，如果沒有“Levy”，我們會將“Levy”列中的“-”替換為“0”。我們也可以用“均值”或“中值”來推斷它，但你必須做出該決定。

Mileage 列

這里的“Mileage”列表示汽車行駛了多少公里。每次閱讀后，“公里”都寫在列中。我們將刪除它。

**“Engine Volume”列 **

與“Engine Volume”列一起，還寫入了發(fā)動機的“種類”（渦輪增壓或非渦輪增壓）。我們將添加一個新列來顯示“引擎”的“類型”。

處理“離群值”

我們將檢查數(shù)值特征。以下是確定異常值的每個數(shù)值特征的快照

Levy：

Engine volume：

Mileage：

Cylinders：

Airbags：

離群值可以在 ‘Levy’, ‘Engine volume’, ‘Mileage’和“Cylinders”列中找到。我們將使用分位數(shù)間距 (IQR) 方法來消除這些異常值。

在統(tǒng)計學中，四分位數(shù)間距 (IQR) 是基于將數(shù)據(jù)集劃分為四分位數(shù)的可變性度量。IQR 是上四分位數(shù)和下四分位數(shù)之間的差值。它是一種不受異常值影響的穩(wěn)健的傳播度量。IQR 通常用于識別數(shù)據(jù)集中的異常值。

要計算 IQR，首先需要計算數(shù)據(jù)集的第 25 個和第 75 個百分位數(shù)，然后通過從第 75 個百分位減去第 25 個百分位來計算 IQR。

使用 IQR 方法去除異常值后

我們可以觀察到現(xiàn)在特征中沒有異常值。

開發(fā)額外的特征

“Mileage”和“Engine Volume”都是連續(xù)變量。在運行回歸時，我發(fā)現(xiàn)對這些變量進行分箱有助于提高模型的性能。因此，我正在為這些特征/列開發(fā)“Bin”特征。

用于開發(fā)額外特征的代碼截圖

處理分類特征

處理機器學習中的分類特征是一項重要任務，因為大多數(shù)機器學習算法都是為處理數(shù)值數(shù)據(jù)而設計的。分類特征是表示為字符串的非數(shù)值數(shù)據(jù)，例如顏色、國家或食物類型。為了在機器學習模型中使用這些特征，需要將它們轉化為數(shù)值數(shù)據(jù)。

有幾種方法可以處理 ML 中的分類特征。我使用 Ordinal Encoder 來處理分類列