MLX: Apple silicon Machine Learning - 03.Multi-Layer Perceptron(MLP)

5 minute read

Multi-Layer Perceptron(MLP) 구현

MNIST 데이터셋을 이용하여 Multi-Layer Perceptron(MLP)을 MLX와 CPU, GPU(MPS)를 이용해 구현하고 비교해보도록 하겠습니다.

(CPU와 MPS는 Torch 사용)

MLX를 이용하여 MLP 구현

관련 모듈을 import 합니다.

import mlx.nn as nn이 import torch.nn as nn과 매우 유사하다는 것을 확인할 수 있습니다.

MLX와 GPU(MPS)를 비교할 때, 약간의 코드 수정과 import 변경만으로 쉽게 비교할 수 있을 것 같습니다.

import mlx.core as mx
import mlx.nn as nn
import mlx.optimizers as optim

import numpy as np
from matplotlib import pyplot as plt

from time import time

MLP class 부분이 torch.nn을 사용할 때와 유사함을 확인할 수 있습니다.

앞에서 언급한대로 코드 수정 없이 import만 변경하여 MLX와 GPU(MPS)를 비교할 수 있을 것 같습니다.

class MLP(nn.Module):
    def __init__(
        self,
        num_layers: int,
        input_dims: int,
        hidden_dims: int,
        output_dims: int
    ):
        super().__init__()
        layer_sizes = [input_dims] + [hidden_dims] * num_layers + [output_dims]
        self.layers = self._make_layers(layer_sizes)

    def _make_layers(self, layer_sizes):
        layers = []
        for idim, odim in zip(layer_sizes[:-1], layer_sizes[1:]):
            layers += [nn.Linear(idim, odim), nn.ReLU()]
        
        return nn.Sequential(*layers[:-1])
    
    def __call__(self, x):
        return self.layers(x)

Loss function과 evaluation function도 만들어줍니다.

def loss_fn(model, X, y):
    return mx.mean(nn.losses.cross_entropy(model(X), y)) # nn.losses.cross_entropy는 logit과 target사이의 loss를 계산해준다.

def eval_fn(model, X, y):
    return mx.mean(mx.argmax(model(X), axis=1) == y)

Hyperparam을 설정하고, MNIST 데이터셋을 다운받아 전처리 해주도록 합니다.

MLP를 사용하기 때문에 (28 X 28)의 이미지를 768dimensions으로 flatten해줍니다.

num_layers = 2
hidden_dim = 256
num_classes = 10
batch_size = 256
num_epochs = 10
learning_rate = 1e-2

# Data Load
import mnist
train_images, train_labels, test_images, test_labels = map(
    mx.array, [
        mnist.train_images(),
        mnist.train_labels(),
        mnist.test_images(),
        mnist.test_labels(),
    ]
)

# Flatten Images
train_images = mx.reshape(train_images, [train_images.shape[0],-1])
valid_images, test_images = test_images[:-10], test_images[-10:]
valid_labels, test_labels = test_labels[:-10], test_labels[-10:]
valid_images = mx.reshape(valid_images, [valid_images.shape[0],-1])

Batch iterator도 만들어줍니다.

torch에서는 dataloader를 사용하면 됩니다.

def batch_iterate(batch_size, X, y):
    perm = mx.array(np.random.permutation(y.size))
    for s in range(0, y.size, batch_size):
        ids = perm[s: s + batch_size]
        yield X[ids], y[ids]

Generator란?

iterator를 생성해주는 함수 또는 객체입니다.

함수 내부에 yield 키워드를 사용하여 값을 반환하면서 상태를 보존합니다.

Generator 특징

Iterable한 순서가 지정됩니다. (모든 generator는 iterator)

느슨하게 평가되어 필요에 따라 값을 생성하며, 메모리를 효율적으로 사용합니다.

내부 상태를 유지하며, 함수 호출 간에 정보를 기억합니다.

무한한 순서가 있는 객체를 모델링할 수 있습니다.

자연스러운 스트림 처리를 위한 파이프라인을 구성할 수 있습니다.

SGD로 MLP학습을 합니다.

Parameter initialize가 랜덤이기 때문에 학습이 안될 수도 있습니다.

(초기화에 따른 문제)

# Model Load
model = MLP(num_layers=num_layers,
            input_dims=train_images.shape[-1],
            hidden_dims=hidden_dim,
            output_dims=num_classes)
mx.eval(model.parameters())

# loss and grad fn
loss_and_grad_fn = nn.value_and_grad(model, loss_fn)

# optimizer
optimizer = optim.SGD(learning_rate=learning_rate)

accuracy = []
tic = time()
for epoch in range(num_epochs):
    for X, y in batch_iterate(batch_size, train_images, train_labels):
        loss, grads = loss_and_grad_fn(model, X, y)
        optimizer.update(model, grads)

    accuracy += [eval_fn(model, valid_images, valid_labels).item()]

mx.eval(model.parameters(), optimizer.state)
toc = time()

print(f"Training time: {(toc-tic)/num_epochs:.2f} sec/epoch")

plt.figure(figsize=(4,3))
plt.plot(range(1,num_epochs+1), accuracy)
plt.plot(range(1,num_epochs+1), [1.0]*num_epochs, ls='--')
plt.xlabel("Epoch")
plt.ylabel("accuracy")
plt.show()

Training time: 0.12 sec/epoch

돌릴때 마다 그래프가 다르게 나오는 것을 확인할 수 있습니다.

잘 학습 되었을 때를 노려 test set 평가를 진행해 보았습니다.

num_images = len(test_images)

images_per_row = 5 # 한줄에 표시되는 그림의 갯수를 지정

num_rows = (num_images + images_per_row - 1) // images_per_row # 전체 행의 갯수를 계산

fig, axes = plt.subplots(num_rows, images_per_row, figsize = (images_per_row * 2, num_rows * 2)) # 전체 행과 열에 대한 subplot을 생성

# 각 subplot에 이미지와 예측값, 정답을 표시
for i, (test_img, test_lb) in enumerate(zip(test_images, test_labels)):
    row = i // images_per_row
    col = i % images_per_row
    ax = axes[row, col]

    pred = mx.argmax(model(test_img.reshape([1,-1])), axis=1).item()
    ax.imshow(np.array(test_img.reshape(28, 28) * 255), cmap='gray')
    ax.set_title(f"Predict: {pred} \n True: {test_lb.item()}")
    ax.axis("off") # 축을 숨김

# 남은 빈 subplot을 숨김
for i in range(num_images, num_rows * images_per_row):
    axes[i // images_per_row, i % images_per_row].axis("off")

plt.tight_layout()
plt.show()

PyTorch를 이용한 MLP 구현

동일한 코드를 사용하여 Torch로 구현합니다.

PyTorch는 device = "mps"를 통해 GPU를 사용합니다.

MLX은 Unified Memory(메모리 공유)를 통해 GPU로 메모리를 이동시키는 시간을 줄여주는 장점을 가지고 있습니다.

그렇다면 GPU만 사용했을 때 어떻게 되는지 살펴보겠습니다.

PyTorch + GPU(MPS) 학습

import torch
import mnist

device = torch.device("mps:0") if torch.backends.mps.is_available() else 'cpu'
print(f"Device: {device}")

# Data Load
train_images, train_labels, test_images, test_labels = map(
    torch.Tensor, [
        mnist.train_images(),
        mnist.train_labels(),
        mnist.test_images(),
        mnist.test_labels(),
    ]
)
# Flatten Images
train_labels, test_labels = train_labels.long(), test_labels.long()
train_images = torch.reshape(train_images, [train_images.shape[0],-1])
valid_images, test_images = test_images[:-10], test_images[-10:]
valid_labels, test_labels = test_labels[:-10], test_labels[-10:]
valid_images = torch.reshape(valid_images, [valid_images.shape[0],-1])

class torchMLP(torch.nn.Module):
    def __init__(
        self, 
        num_layers: int,
        input_dims: int, 
        hidden_dims: int,
        output_dims: int
    ):
        super().__init__()
        layer_sizes = [input_dims] + [hidden_dims] * num_layers + [output_dims]
        self.layers = self._make_layers(layer_sizes)
    
    def _make_layers(self, layer_sizes):
        layers = []
        for idim, odim in zip(layer_sizes[:-1], layer_sizes[1:]):
            layers += [
                            torch.nn.Linear(idim, odim), 
                            torch.nn.ReLU()
                       ]
        
        return torch.nn.Sequential(*layers[:-1])
    
    def __call__(self, x):
        return self.layers(x)

def loss_fn(model, X, y):
    return torch.nn.CrossEntropyLoss()(model(X), y) # nn.losses.cross_entropy는 logit과 target사이의 loss를 계산

def eval_fn(model, X, y):
    return torch.mean((torch.argmax(model(X), axis=1) == y).float())

def batch_iterate(batch_size, X, y):
    perm = torch.randperm(y.size(0))
    for s in range(0, y.size(0), batch_size):
        ids = perm[s : s + batch_size]
        yield X[ids], y[ids]

# Model Load
model = torchMLP(num_layers=num_layers, 
            input_dims=train_images.shape[-1],
            hidden_dims=hidden_dim,
            output_dims=num_classes)
model.to(device)

# optimizer
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

accuracy = [eval_fn(model, valid_images.to(device), valid_labels.to(device)).item()]
tic = time()
for epoch in range(num_epochs):
    for X, y in batch_iterate(batch_size, train_images, train_labels):
        X, y = X.to(device), y.to(device)
        loss = loss_fn(model, X, y)
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
    
    accuracy += [eval_fn(model, valid_images.to(device), valid_labels.to(device)).item()]

toc = time()
print(f"Training time: {(toc-tic)/num_epochs:.2f} sec/epoch")

plt.figure(figsize=(4,3))
plt.plot(range(num_epochs+1), accuracy)
plt.plot(range(num_epochs+1),[1.0]*(num_epochs+1), ls='--')
plt.xlabel("Epoch")
plt.ylabel("accuracy")
plt.show()

Device: mps:0
Training time: 0.48 sec/epoch

학습시간이 GPU(MPS)를 사용했을 때가 MLX를 사용했을 때 보다 1 epoch당 0.1초에서 0.48초로 증가한 것을 볼 수 있습니다.

그렇다면 CPU로만 학습했을 때는 어떤지 살펴보겠습니다.

PyTorch + CPU 학습

import torch
import mnist

# Data Load
train_images, train_labels, test_images, test_labels = map(
    torch.Tensor, [
        mnist.train_images(),
        mnist.train_labels(),
        mnist.test_images(),
        mnist.test_labels(),
    ]
)
# Flatten Images
train_labels, test_labels = train_labels.long(), test_labels.long()
train_images = torch.reshape(train_images, [train_images.shape[0],-1])
valid_images, test_images = test_images[:-10], test_images[-10:]
valid_labels, test_labels = test_labels[:-10], test_labels[-10:]
valid_images = torch.reshape(valid_images, [valid_images.shape[0],-1])

class torchMLP(torch.nn.Module):
    def __init__(
        self, 
        num_layers: int,
        input_dims: int, 
        hidden_dims: int,
        output_dims: int
    ):
        super().__init__()
        layer_sizes = [input_dims] + [hidden_dims] * num_layers + [output_dims]
        self.layers = self._make_layers(layer_sizes)
    
    def _make_layers(self, layer_sizes):
        layers = []
        for idim, odim in zip(layer_sizes[:-1], layer_sizes[1:]):
            layers += [
                            torch.nn.Linear(idim, odim), 
                            torch.nn.ReLU()
                       ]
        
        return torch.nn.Sequential(*layers[:-1])
    
    def __call__(self, x):
        return self.layers(x)

def loss_fn(model, X, y):
    return torch.nn.CrossEntropyLoss()(model(X), y) # nn.losses.cross_entropy는 logit과 target사이의 loss를 계산

def eval_fn(model, X, y):
    return torch.mean((torch.argmax(model(X), axis=1) == y).float())

def batch_iterate(batch_size, X, y):
    perm = torch.randperm(y.size(0))
    for s in range(0, y.size(0), batch_size):
        ids = perm[s : s + batch_size]
        yield X[ids], y[ids]

# Model Load
model = torchMLP(num_layers=num_layers, 
            input_dims=train_images.shape[-1],
            hidden_dims=hidden_dim,
            output_dims=num_classes)

# optimizer
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

accuracy = [eval_fn(model, valid_images, valid_labels).item()]
tic = time()
for epoch in range(num_epochs):
    for X, y in batch_iterate(batch_size, train_images, train_labels):
        loss = loss_fn(model, X, y)
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()
    
    accuracy += [eval_fn(model, valid_images, valid_labels).item()]

toc = time()
print(f"Training time: {(toc-tic)/num_epochs:.2f} sec/epoch")

plt.figure(figsize=(4,3))
plt.plot(range(num_epochs+1), accuracy)
plt.plot(range(num_epochs+1),[1.0]*(num_epochs+1), ls='--')
plt.xlabel("Epoch")
plt.ylabel("accuracy")
plt.show()

Training time: 0.27 sec/epoch

CPU를 사용해서 학습하였을 때는 GPU(MPS)를 사용했을 때 보다 1 epoch당 0.27초로 감소한 것을 확인할 수 있습니다.

이것을 통해 MLP의 경우 GPU(MPS) 활용도가 떨어진다는 것을 볼 수 있습니다.

GPU(MPS)활용도가 떨어지는 것은 Unified Memory가 아니기 때문에 메모리를 device로 옮기는 과정에서 시간 손해가 일어났거나, 최적화 문제 때문에 발생되는 것으로 보여집니다.

MLX를 사용하였을 때 간단한 linear regression에서는 큰 차이가 없었지만, multi-layer perceptron처럼 행렬 연산이 무거워지는 경우 차이가 발생하는 것을 확인할 수 있었습니다.

References

MLX 홈페이지(Multi-Layer Perceptron 설명)
네이버 블로그(다층 퍼셉트론(Multi-Layer Perceptron))
SKT Enterprise(MLX Multi-Layer Perceptron 설명)
위키독스(Generator 설명)
MLX 홈페이지(Unified Memory)

Share on

Twitter Facebook LinkedIn

김경태

MLX: Apple silicon Machine Learning - 03.Multi-Layer Perceptron(MLP)

Multi-Layer Perceptron(MLP) 구현

MLX를 이용하여 MLP 구현

PyTorch를 이용한 MLP 구현

PyTorch + GPU(MPS) 학습

PyTorch + CPU 학습

References

Share on

You may also enjoy

SQL Agent: LangChain을 활용한 SQL 구문 생성 모델

AIFactory: Gemma LoRA 파인튜닝으로 댓글감성 분류

DACON: 모델 양자화 + RAG - NLP(자연어 처리) 기반의 QA(질문-응답) 시스템 개발

PostgreSQL: Quick Start - Load Sample Database