(通俗易懂)可视化详解多通道 & 多通道输入输出卷积代码实现

以前对多通道和多通道输入输出的卷积操作不理解，今天自己在草稿纸上画图推理了一遍，终于弄懂了。希望能帮助到大家。

多通道可视化

一通道的2x2矩阵

torch.Size([2,2]) 相当于 torch.Size([1,2,2])，是一通道的2x2矩阵

二通道的 2x2矩阵

torch.Size([2,2,2])代表二通道的 2x2矩阵，第一个2表示通道

三通道的2x2x2矩阵

torch.Size([3,2,2,2])

多输入通道代码，输出通道为1的卷积操作代码

import torch
from d2l import torch as d2l
'''
    多输入通道，输出单通道
    for x,k in zip(X,K)是取出每个通道的图像矩阵 和 对应的卷积核。
    对每个通道对应的的像素矩阵和卷积核进行计算最后相加合到一起
'''
def corr2d_multi_in(X,K):
    return sum(d2l.corr2d(x,k) for x,k in zip(X,K))

X = torch.tensor([[[0, 1, 2],
                   [3, 4, 5],
                   [6, 7, 8]],
                  [[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]]])
K = torch.tensor([[[0, 1],
                   [2, 3]],
                  [[1, 2],
                   [3, 4]]])
print(result)
print(result.shape)

输出结果：

tensor([[ 56.,  72.],
        [104., 120.]])
torch.Size([2, 2])

结果可视化

多输入和多输出通道的卷积操作代码

'''多输入和多输出通道'''
def corr2d_multi_in_out(X,K):
    # 注意，没有遍历X，此时的X是大写
    return torch.stack([corr2d_multi_in(X,k) for k in K],0)

K = torch.tensor([[[0, 1],
                   [2, 3]],
                  [[1, 2],
                   [3, 4]]])
K = torch.stack((K,K+1,K+2),0)
K.shape

torch.Size([3, 2, 2, 2])

result = corr2d_multi_in_out(X,K)
print(result)
print(result.shape)

tensor([[[ 56.,  72.],
         [104., 120.]],

        [[ 76., 100.],
         [148., 172.]],

        [[ 96., 128.],
         [192., 224.]]])
torch.Size([3, 2, 2])

多通道可视化

一通道的2x2矩阵

二通道的 2x2矩阵

三通道的2x2x2矩阵

多输入通道代码，输出通道为1的卷积操作代码

结果可视化

多输入和多输出通道的卷积操作代码

Recommend

New SEC cybersecurity rules put more onus on the CISO, not so much on directors

Why Ive’s way of doing personal projects is good for designers

Discussions on improving security through chaos engineering

架构整洁之道上篇（编程范式&设计原则）

数据为王: Textbooks Are All You Need

使LLM善假于物: Toolformer

图说文本生成解码策略

Read the Minutes of Any Meeting With This Speech-to-Text AI, Only $59.99 for Lif...

輕舟已過萬重山

Elon Musk Announces Anti-'Woke' Company xAI to Rival ChatGPT | Entrepreneur

About Joyk