Count Unique Values in all Columns of Pandas Dataframe

Count Unique Values in all Columns of Pandas Dataframe – thisPointer.comSkip to content

This article will discuss different ways to count unique values in all columns of a dataframe in Pandas.

First of all, we will create a sample Dataframe from a list of tuples i.e.

import pandas as pd

import numpy as np

# List of Tuples

list_of_tuples = [ (11, 34, 67, 5, np.NaN, 34),

(12, 34, np.NaN, 11, 12, np.NaN),

(13, 34, 78, 11, 12, 18) ,

(12, 34, 80, 41, 11, 18)]

# Create a DataFrame object

df = pd.DataFrame( list_of_tuples,

columns=['A', 'B', 'C', 'D', 'E', 'F'])

print(df)

import pandas as pd
import numpy as np

# List of Tuples
list_of_tuples = [  (11,  34, 67,       5,  np.NaN, 34),
                    (12,  34, np.NaN,   11, 12,     np.NaN),
                    (13,  34, 78,       11, 12,     18) ,
                    (12,  34, 80,       41, 11,     18)]


# Create a DataFrame object
df = pd.DataFrame(  list_of_tuples, 
                    columns=['A', 'B', 'C', 'D', 'E', 'F'])

print(df)

Contents of the Dataframe are,

A B C D E F

0 11 34 67.0 5 NaN 34.0

1 12 34 NaN 11 12.0 NaN

2 13 34 78.0 11 12.0 18.0

3 12 34 80.0 41 11.0 18.0

    A   B     C   D     E     F
0  11  34  67.0   5   NaN  34.0
1  12  34   NaN  11  12.0   NaN
2  13  34  78.0  11  12.0  18.0
3  12  34  80.0  41  11.0  18.0

Now let’s see how we can get the count of unique values in each of the columns.

Count Unique Values in All Columns using Dataframe.nunique()

In Pandas, the Dataframe provides a member function nunique(). It gives a Series containing unique elements along the requested axis. We can use this to get a count of unique values in each of the columns. For example,

# Get a Series of count of unique values in each column

unique_values = df.nunique()

print(unique_values)

# Get a Series of count of unique values in each column
unique_values = df.nunique()

print(unique_values)

Output:

dtype: int64

A    3
B    1
C    3
D    3
E    2
F    2
dtype: int64

Here we fetched the count of unique values in each of the columns of Dataframe.

By default Dataframe.nunique() doesn’t includes the NaN values. Therefore, if you want to include the NaN values while counting unique values, you need to pass the dropna argument as False to the nunique() function. For example,

# Get a Series of count of unique values in each column

# including NaN

unique_values = df.nunique(dropna=False)

print(unique_values)

# Get a Series of count of unique values in each column
# including NaN
unique_values = df.nunique(dropna=False)

print(unique_values)

Output:

dtype: int64

A    3
B    1
C    4
D    3
E    3
F    3
dtype: int64

This time nunique() included the NaN values to while counting the unique elements.

Count Unique Values in All Columns using For Loop

Another simple solution is that we can iterate over all the columns of a Datframe one by one. During iteration, we can count the unique values of each column. For example,

# Iterate over all column names of Dataframe

for col in df.columns:

# Select the column by name and get count of unique values in it

count = df[col].nunique()

print('Count of Unique values in Column ', col, ' is : ', count)

# Iterate over all column names of Dataframe
for col in df.columns:
    # Select the column by name and get count of unique values in it
    count = df[col].nunique()
    print('Count of Unique values in Column ', col, ' is : ', count)

Output:

Count of Unique values in Column A is : 3

Count of Unique values in Column B is : 1

Count of Unique values in Column C is : 3

Count of Unique values in Column D is : 3

Count of Unique values in Column E is : 2

Count of Unique values in Column F is : 2

Count of Unique values in Column  A  is :  3
Count of Unique values in Column  B  is :  1
Count of Unique values in Column  C  is :  3
Count of Unique values in Column  D  is :  3
Count of Unique values in Column  E  is :  2
Count of Unique values in Column  F  is :  2

Using Loop, we iterated through all the column names of Dataframe. Then for each column name, we fetched the column as a Series object and then counted the unique values in that column using Series.nunique() function.

By default Series.nunique() doesn’t includes the NaN values. Therefore, if you want to include the NaN values while counting unique values, you need to pass the dropna argument as False to the Series.nunique() function. For example,

# Iterate over all column names of Dataframe and Include NaN

for col in df.columns:

# Select the column by name and get count of unique values in it

# including NaN

count = df[col].nunique(dropna=False)

print('Count of Unique values in Column ', col, ' is : ', count)

# Iterate over all column names of Dataframe and Include NaN
for col in df.columns:
    # Select the column by name and get count of unique values in it
    # including NaN
    count = df[col].nunique(dropna=False)
    print('Count of Unique values in Column ', col, ' is : ', count)

Output:

Count of Unique values in Column A is : 3

Count of Unique values in Column B is : 1

Count of Unique values in Column C is : 4

Count of Unique values in Column D is : 3

Count of Unique values in Column E is : 3

Count of Unique values in Column F is : 3

Count of Unique values in Column  A  is :  3
Count of Unique values in Column  B  is :  1
Count of Unique values in Column  C  is :  4
Count of Unique values in Column  D  is :  3
Count of Unique values in Column  E  is :  3
Count of Unique values in Column  F  is :  3

In this way, if you want, you can also skip specific columns based on conditions.

Read More

The complete example is as follows,

import pandas as pd

import numpy as np

# List of Tuples

list_of_tuples = [ (11, 34, 67, 5, np.NaN, 34),

(12, 34, np.NaN, 11, 12, np.NaN),

(13, 34, 78, 11, 12, 18) ,

(12, 34, 80, 41, 11, 18)]

# Create a DataFrame object

df = pd.DataFrame( list_of_tuples,

columns=['A', 'B', 'C', 'D', 'E', 'F'])

print(df)

# Get a Series of count of unique values in each column

unique_values = df.nunique()

print(unique_values)

print('***********')

# Get a Series of count of unique values in each column

# including NaN

unique_values = df.nunique(dropna=False)

print(unique_values)

print('***********')

# Iterate over all column names of Dataframe

for col in df.columns:

# Select the column by name and get count of unique values in it

count = df[col].nunique()

print('Count of Unique values in Column ', col, ' is : ', count)

print('***********')

# Iterate over all column names of Dataframe and Include NaN

for col in df.columns:

# Select the column by name and get count of unique values in it

# including NaN

count = df[col].nunique(dropna=False)

print('Count of Unique values in Column ', col, ' is : ', count)

import pandas as pd
import numpy as np

# List of Tuples
list_of_tuples = [  (11,  34, 67,       5,  np.NaN, 34),
                    (12,  34, np.NaN,   11, 12,     np.NaN),
                    (13,  34, 78,       11, 12,     18) ,
                    (12,  34, 80,       41, 11,     18)]


# Create a DataFrame object
df = pd.DataFrame(  list_of_tuples, 
                    columns=['A', 'B', 'C', 'D', 'E', 'F'])

print(df)

# Get a Series of count of unique values in each column
unique_values = df.nunique()

print(unique_values)

print('***********')

# Get a Series of count of unique values in each column
# including NaN
unique_values = df.nunique(dropna=False)

print(unique_values)

print('***********')

# Iterate over all column names of Dataframe
for col in df.columns:
    # Select the column by name and get count of unique values in it
    count = df[col].nunique()
    print('Count of Unique values in Column ', col, ' is : ', count)

print('***********')

# Iterate over all column names of Dataframe and Include NaN
for col in df.columns:
    # Select the column by name and get count of unique values in it
    # including NaN
    count = df[col].nunique(dropna=False)
    print('Count of Unique values in Column ', col, ' is : ', count)

Output:

A B C D E F

0 11 34 67.0 5 NaN 34.0

1 12 34 NaN 11 12.0 NaN

2 13 34 78.0 11 12.0 18.0

3 12 34 80.0 41 11.0 18.0

dtype: int64

***********

dtype: int64

***********

Count of Unique values in Column A is : 3

Count of Unique values in Column B is : 1

Count of Unique values in Column C is : 3

Count of Unique values in Column D is : 3

Count of Unique values in Column E is : 2

Count of Unique values in Column F is : 2

***********

Count of Unique values in Column A is : 3

Count of Unique values in Column B is : 1

Count of Unique values in Column C is : 4

Count of Unique values in Column D is : 3

Count of Unique values in Column E is : 3

Count of Unique values in Column F is : 3

    A   B     C   D     E     F
0  11  34  67.0   5   NaN  34.0
1  12  34   NaN  11  12.0   NaN
2  13  34  78.0  11  12.0  18.0
3  12  34  80.0  41  11.0  18.0
A    3
B    1
C    3
D    3
E    2
F    2
dtype: int64
***********
A    3
B    1
C    4
D    3
E    3
F    3
dtype: int64
***********
Count of Unique values in Column  A  is :  3
Count of Unique values in Column  B  is :  1
Count of Unique values in Column  C  is :  3
Count of Unique values in Column  D  is :  3
Count of Unique values in Column  E  is :  2
Count of Unique values in Column  F  is :  2
***********
Count of Unique values in Column  A  is :  3
Count of Unique values in Column  B  is :  1
Count of Unique values in Column  C  is :  4
Count of Unique values in Column  D  is :  3
Count of Unique values in Column  E  is :  3
Count of Unique values in Column  F  is :  3

Summary:

We learned two different ways to count unique values in all columns of the Dataframe in Pandas.

Count Unique Values in All Columns using Dataframe.nunique()

Count Unique Values in All Columns using For Loop

Recommend

IDEA数字经济研究院六大前沿产品发布，沈向洋：我们正从人口红利过渡到工程师红利-Inf...

一个正在开发中的类似 Notion 的开源 APP | Linux 中国

Android C++系列：Linux文件IO操作(一) - InfoQ 写作平台

品牌还能在双11找到增量吗 ?

Pandas Series.is_unique – thisPointer.com

What Makes Apple’s Tim Cook the Most Influential CEO

☕【Java技术指南】「技术盲区」看看线程池是如何回收和维持运作线程的核心技术体系 -...

康美药业引发连锁反应？A股上市公司现独董“辞职热”

Javascript Sort Array of Integers – thisPointer.com

CEO Spotlight: Victoria Kennedy, Victorious PR CEO Utilizes Power of Integrity t...

About Joyk