4

Python实现类别变量的独热编码(One-hot Encoding) - 疯狂学习GIS

 2 years ago
source link: https://www.cnblogs.com/fkxxgis/p/17122059.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

  本文介绍基于PythonOneHotEncoderpd.get_dummies两种方法,实现机器学习中最优的编码方法——独热编码的方法。

  在数据处理与分析领域,对数值型与字符型类别变量加以编码是不可或缺的预处理操作;这里介绍两种不同的方法。

1 OneHotEncoder

  首先导入必要的模块。

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

  其中,OneHotEncoder是我们实现独热编码的关键模块。

  接下来,导入并显示数据前五行。

test_data_1=pd.read_csv('G:/CropYield/03_DL/00_Data/onehot_test.csv',names=['EVI0610','EVI0626','SoilType'],header=0)
test_data_1.head(5)

  关于这里导入数据代码的解释,大家可以查看多变量两两相互关系联合分布图的Python绘制Python TensorFlow深度学习回归代码:DNNRegressor这两篇文章,这里就不再赘述啦~

  数据前五行展示如下图。其中,前两列'EVI0610''EVI0626'为数值型连续变量,而'SoilType'为数值型类别变量。我们要做的,也就是将第三列'SoilType'进行独热编码。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZWJ1c2hpYmlhb3NoaWZ1,size_16,color_FFFFFF,t_70

  接下来,进行独热编码的配置。

ohe=OneHotEncoder(handle_unknown='ignore')
ohe.fit(test_data_1)

  在这里,第一行是对独热编码的配置,第二行则是对我们刚刚导入的数据进行独热编码处理。得到一个独热编码配置的输出结果。

20210330225916892.png

  接下来,看看独热编码处理后,将我们的数据分成了哪些类别。

ohe.categories_

  得到结果如下图。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZWJ1c2hpYmlhb3NoaWZ1,size_16,color_FFFFFF,t_70

  可以发现,一共有三个array,为什么呢?仔细看可以发现,独热编码是将我们导入的三列数据全部都当作类别变量来处理了。之所以会这样,是因为我们在一开始没有表明哪一列是类别变量,需要进行独热编码;而哪一列不是类别变量,从而不需要进行独热编码。

  那么,我们如何实现上述需求,告诉程序我们要对哪一行进行独热编码呢?在老版本的sklearn中,我们可以借助categorical_features=[x]参数来实现这一功能,但是新版本sklearn取消了这一参数。那么此时,一方面,我们可以借助ColumnTransformer来实现这一过程,另一方面,我们可以直接对需要进行转换的列加以处理。后者相对较为容易理解,因此本文对后者进行讲解。

  我们将test_data_1中的'SoilType'列作为索引,从而仅仅对该列数据加以独热编码。

ohe_column=pd.DataFrame(ohe.fit_transform(test_data_1[['SoilType']]).toarray())
ohe_column.head(5)

  其中,[['SoilType']]表示仅仅对这一列进行处理。得到结果如下图。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZWJ1c2hpYmlhb3NoaWZ1,size_16,color_FFFFFF,t_70

  可以看到,原来的'SoilType'列现在成为了63列的编码列,那么这样的话,说明我们原先的'SoilType'应该一共是有63个不同的数值。是不是这个样子呢?我们来检查一下。

count=pd.DataFrame(test_data_1['SoilType'].value_counts())
print(count)

  得到结果如下。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZWJ1c2hpYmlhb3NoaWZ1,size_16,color_FFFFFF,t_70

  好的,没有问题:可以看到此结果共有63行,也就是'SoilType'列原本是有63个不同的值的,证明我们的独热编码没有出错。

  此时看一下我们的test_data_1数据目前长什么样子。

test_data_1.head(5)
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZWJ1c2hpYmlhb3NoaWZ1,size_16,color_FFFFFF,t_70

  是的,我们仅仅对'SoilType'列做了处理,没有影响到整个初始数据。那么先将原本的'SoilType'列剔除掉。

test_data_1=test_data_1.drop(['SoilType'],axis=1)
test_data_1.head(5)
20210330231024535.png

  再将经过独热编码处理后的63列加上。

test_data_1.join(ohe_column)
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZWJ1c2hpYmlhb3NoaWZ1,size_16,color_FFFFFF,t_70

  大功告成!

  但是这里还有一个问题,我们经过独热编码所得的列名称是以数字来命名的,非常不方便。因此,有没有什么办法可以在独热编码进行的同时,自动对新生成的列加以重命名呢?

2 pd.get_dummies

  pd.get_dummies是一个最好的办法!其具体用法与上述OneHotEncoder类似,因此具体过程就不再赘述啦,大家看代码就可以明白。

  首先还是导入与上述内容中一致的初始数据。

test_data_2=pd.read_csv('G:/CropYield/03_DL/00_Data/onehot_test.csv',names=['EVI0610','EVI0626','SoilType'],header=0)
test_data_2.head(5)
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZWJ1c2hpYmlhb3NoaWZ1,size_16,color_FFFFFF,t_70

  进行独热编码并看看结果。

test_data_2_ohe=pd.get_dummies(test_data_2,columns=['SoilType'])
test_data_2_ohe.head(5)
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poZWJ1c2hpYmlhb3NoaWZ1,size_16,color_FFFFFF,t_70

  最终结果中,列名称可以说是非常醒目,同时,共有65列数据,自动删除了原本的'SoilType'列,实现了“独热编码”“新列重命名”与“原始列删除”,可谓一举三得,简直是太方便啦~


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK