RNN LSTM 모델 문장 완성 / 각 아이템의 확률 예측 (샘플 코드)

데이터 분석/머신러닝

RNN LSTM 모델 문장 완성 / 각 아이템의 확률 예측 (샘플 코드)

Family in August 2023. 2. 23. 22:10

LSTM 모델은 시퀀스 데이터를 다루는 데 특화된 모델로, 모든 아이템들의 다음 순서로 예측될 확률을 구할 수 있습니다.

예를 들어, LSTM 모델을 이용해 텍스트 생성을 할 경우, 모델은 현재까지 입력된 단어들을 기반으로 다음 단어가 무엇인지 예측할 수 있습니다.

이때, 각 단어의 다음으로 나올 확률값을 출력할 수 있으며, 이를 이용해 생성된 텍스트의 품질을 측정할 수 있습니다.

LSTM 모델에서는 다음 단어를 예측하기 위해 소프트맥스 활성화 함수를 사용합니다.

이 함수는 출력층에서 모든 가능한 단어에 대해 확률 값을 출력하며, 가장 높은 확률 값을 가진 단어가 다음에 나올 단어로 예측됩니다.

이러한 방식으로 LSTM 모델에서 시퀀스 데이터의 다음 아이템 예측 확률을 구할 수 있습니다.

이 모델을 구현하기 위해 우리는 다음과 같은 라이브러리들을 사용합니다.

TensorFlow: 머신러닝 라이브러리로, 우리가 구축할 LSTM 모델을 훈련시키기 위해 사용됩니다.
Keras: TensorFlow 위에 구축된 딥러닝 라이브러리로, 모델을 구현하고 훈련시키는 데 사용됩니다.
NumPy: 행렬 연산을 수행하는 라이브러리로, 모델에 입력되는 데이터를 처리하는 데 사용됩니다.

아래는 간단한 LSTM 모델을 사용하여 다음 아이템의 확률을 예측하는 예시 코드입니다.

import numpy as np
from keras.models import Sequential
from keras.layers import Dense, LSTM

# 예시 데이터
data = np.array([[1, 2, 3, 4],
                 [5, 6, 7, 8],
                 [9, 10, 11, 12]])

# 입력 시퀀스와 라벨을 생성합니다.
X, y = [], []
for i in range(len(data)):
    # 입력 시퀀스: 현재 아이템 이전의 아이템들
    if i == 0:
        X.append(data[i])
    else:
        X.append(data[i-1])
    # 라벨: 다음 아이템
    y.append(data[i])

# NumPy 배열로 변환합니다.
X = np.array(X).reshape(len(data)-1, 4, 1)
y = np.array(y[1:]).reshape(len(data)-1, 4, 1)

# LSTM 모델을 생성합니다.
model = Sequential()
model.add(LSTM(10, input_shape=(4, 1)))
model.add(Dense(1))
model.compile(loss='mean_squared_error', optimizer='adam')

# 모델을 훈련시킵니다.
model.fit(X, y, epochs=100, batch_size=1, verbose=2)

# 새로운 입력 시퀀스를 생성합니다.
new_seq = np.array([[13, 14, 15, 16]])

# 다음 아이템의 확률을 예측합니다.
pred = model.predict(new_seq.reshape(1, 4, 1))
print(pred)

이 코드는 위에서 언급한 라이브러리들을 사용하여 간단한 LSTM 모델을 생성하고, 이 모델을 사용하여 입력 시퀀스에 대해 다음 아이템의 확률을 예측합니다.

다음에는 문장을 자동으로 완성하는 코드를 작성해보겠습니다.