Aloha oe AI

[NLP] 자연어처리와 친해지기 : 머신러닝과 딥러닝 모델은 코드적으로 어떻게 다를까? (feat. 네이버 영화 리뷰 데이터(nsmc) 감성 분석)

Aloha oe AI — Wed, 16 Oct 2024 22:43:02 +0900

지난 두달동안 머신러닝과 딥러닝을 차례로 공부하다보니 두 기술이 동일한 테스크를 처리하는데 파이썬 코드 관점에서 어떤 차이가 있을까 궁금해졌다.
그래서 오늘 이렇게 알아본다.

오늘의 학습 목표 :

**네이버 영화 리뷰 데이터를 사용하여 머신러닝과 딥러닝 모델(분류모델)을 비교하기**

비교 항목 :

1. 데이터 전처리  
2. EDA(탐색적 데이터 분석)  
3. 모델 설정 및 학습  
4. 성능 평가 과정

사용한 데이터셋 :

**네이버 영화 리뷰 데이터**  
-  ratings_train.txt   
-  ratings_test.txt   
출처 URL : https://github.com/e9t/nsmc

사용한 모델 :

- 머신러닝 모델 : **TF-IDF + Naive Bayes**  
- 딥러닝 모델   : **LSTM**

비교1. 데이터 전처리 및 준비

해당 실험에서 두 모델이 같은 데이터셋을 사용하기에 데이터 전처리는 두 모델 모두 동알합니다.
먼저, 데이터는 훈련, 검증, 테스트 세 묶음으로 분할합니다. 이와 함께 결측치 제거, 중복 제거 등의 전처리를 수행합니다.

import pandas as pd
from sklearn.model_selection import train_test_split

데이터 불러오기
train_data = pd.read_csv("ratings_train.txt", sep='\t')
test_data = pd.read_csv("ratings_test.txt", sep='\t')

결측치 및 중복 제거
train_data = train_data.dropna(how='any').drop_duplicates(subset=['document'])
test_data = test_data.dropna(how='any').drop_duplicates(subset=['document'])

데이터 분할: 훈련, 검증, 테스트
train_data, val_data = train_test_split(train_data, test_size=0.2, random_state=42)

X_train, y_train = train_data['document'], train_data['label']
X_val, y_val = val_data['document'], val_data['label']
X_test, y_test = test_data['document'], test_data['label']

비교 2. EDA(탐색적 데이터 분석)

같은 데이터셋 사용하니 EDA 역시 두 모델이 다르지 않습니다.
데이터의 샘플 길이 분포를 시각화해봅니다.

import matplotlib.pyplot as plt

X_train_length = X_train.apply(lambda x: len(str(x)))

plt.hist(X_train_length, bins=50, alpha=0.75, color='blue')
plt.title("Train Data Review Length Distribution")
plt.show()

비교 3. 모델 설정 및 학습 (차이 발생 구역✨)

머신러닝과 딥러닝의 차이는 주로 데이터 처리 방식과 모델 학습 과정에서 발생합니다. 아래에 두 접근법의 차이를 정리해봅니다.

3.1. 머신러닝 모델: TF-IDF + Naive Bayes Classifier

머신러닝 모델은 "벡터화 -> 모델 학습 -> 검증 및 테스트 정확도 계산" 순으로 과정이 전개됩니다.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, f1_score

3.1.1 TF-IDF 벡터화
TF-IDF와 같은 벡터화 방법을 사용해 문서를 수치 벡터로 변환함
텍스트를 수치로 변환한 후 바로 모델에 넣을 수 있음
tfidf = TfidfVectorizer(max_features=10000)
X_train_tfidf = tfidf.fit_transform(X_train)
X_val_tfidf = tfidf.transform(X_val)
X_test_tfidf = tfidf.transform(X_test)

3.1.2 Naive Bayes 모델 학습
머신러닝 알고리즘(예: Naive Bayes, SVM 등)으로 학습함
일반적으로 훈련 속도가 빠르고 계산이 간단함
nb_model = MultinomialNB()
nb_model.fit(X_train_tfidf, y_train)

3.1.3 검증 및 테스트 정확도 계산
학습된 모델로 검증과 테스트 데이터를 예측하고, 정확도 및 F1 Score를 평가함
y_val_pred = nb_model.predict(X_val_tfidf)
y_test_pred = nb_model.predict(X_test_tfidf)

print("Naive Bayes Validation Accuracy:", accuracy_score(y_val, y_val_pred))
print("Naive Bayes Test F1 Score:", f1_score(y_test, y_test_pred))

3.2. 딥러닝 모델: LSTM 기반 분류기

딥러닝 모델은 "토근화 및 시퀀스변환 -> 토크나이저 설정 및 학습 -> 시퀀스 변환 및 패딩 -> 딥러닝 모델 정의 -> 모델 학습 -> 테스트 데이터 성능 평가" 순으로 과정이 전개됩니다.

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout

# 3.2.1 토큰화 및 시퀀스 변환
## 텍스트 데이터를 "단어의 시퀀스(Sequence)"로 변환함
## 각 단어를 인덱스 번호로 변환해 "토큰화(Tokenization)"함
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 3.2.2 토크나이저 설정 및 학습
## 딥러닝 모델에 맞게 Tokenizer 객체를 설정함
## 텍스트를 토큰 리스트로 변환하는 학습이 포함됨
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(X_train)

# 3.2.3 시퀀스 변환 및 패딩
## 모든 시퀀스의 길이를 동일하게 패딩(Padding)함
## 3긴 시퀀스는 잘라내고, 짧은 시퀀스는 0으로 채워 넣어 입력 크기 통일함
X_train_seq = pad_sequences(tokenizer.texts_to_sequences(X_train), maxlen=100)
X_val_seq = pad_sequences(tokenizer.texts_to_sequences(X_val), maxlen=100)
X_test_seq = pad_sequences(tokenizer.texts_to_sequences(X_test), maxlen=100)

# 3.2.4 딥러닝 모델 정의
Embedding, LSTM, Dense 등의 층으로 구성된 딥러닝 모델을 정의
model = Sequential([
Embedding(input_dim=10000, output_dim=128, input_length=100),
LSTM(128, dropout=0.2, recurrent_dropout=0.2),
Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 3.2.5 모델 학습
## 딥러닝 모델에 데이터를 학습시킵니다. 학습에는 오랜 시간이 걸릴 수 있음
model.fit(X_train_seq, y_train, validation_data=(X_val_seq, y_val), epochs=5, batch_size=64)

# 3.2.6 테스트 데이터 성능 평가
## 학습된 모델을 사용해 테스트 데이터의 성능을 평가함
F1 Score와 정확도 등의 성능 지표를 계산함
y_test_pred_dl = (model.predict(X_test_seq) > 0.5).astype("int32")
print("LSTM Test F1 Score:", f1_score(y_test, y_test_pred_dl))

비교 4. 성능 평가 과정

# 정확도 및 F1 점수 비교
ml_accuracy = accuracy_score(y_test, y_test_pred)
dl_accuracy = accuracy_score(y_test, y_test_pred_dl)

ml_f1 = f1_score(y_test, y_test_pred)
dl_f1 = f1_score(y_test, y_test_pred_dl)

# 성능 비교 시각화
import numpy as np

metrics = ['Accuracy', 'F1 Score']
ml_scores = [ml_accuracy, ml_f1]
dl_scores = [dl_accuracy, dl_f1]

x = np.arange(len(metrics))
width = 0.35

fig, ax = plt.subplots()
bar1 = ax.bar(x - width/2, ml_scores, width, label='Machine Learning')
bar2 = ax.bar(x + width/2, dl_scores, width, label='Deep Learning')

ax.set_xlabel('Metrics')
ax.set_ylabel('Scores')
ax.set_title('Comparison of ML vs DL')
ax.set_xticks(x)
ax.set_xticklabels(metrics)
ax.legend()

plt.show()

결론

머신러닝 모델과 딥러닝 모델은
1, 2번 데이터 전처리 및 EDA 과정은 동일합니다.
그러나, 그 이후의 데이터 처리 과정과 학습 과정은 머신러닝과 딥러닝에서 차이가 큽니다.
머신러닝은, 벡터화된 수치 데이터를 바로 사용해 빠르게 학습합니다.
딥러닝은, 토큰화와 시퀀스 변환 과정을 거쳐 신경망에 입력하고, 복잡한 구조를 학습합니다.
이 차이 때문에 데이터의 크기, 복잡도, 목적에 따라 머신러닝과 딥러닝 중 적절한 접근 방식을 선택해야 합니다.

꼬리생각

Q. 데이터양이 아주 많지는 않고, 각 셀별로 max_length가 짧으면 머신러닝이 성능이 더 좋게 나올 수 있을까?

A. (데이터 특성에 따라 다르지만 대체로) 그렇다.

머신러닝과 딥러닝 중 어떤 방법이 더 나은 성능을 보일지는 데이터의 특성에 따라 다릅니다만, 데이터 양과 텍스트 길이는 중요한 요소 중 하나입니다.

데이터 양이 적고, 텍스트 길이가 짧은 경우: 머신러닝 추천✨

간단한 텍스트:
- 각 문장이 짧고 문맥 이해가 많이 필요하지 않을 경우,
- 딥러닝 모델의 복잡한 구조가 오히려 성능에 이점을 제공하지 못합니다.
- 머신러닝 모델(예: Naive Bayes, SVM)은 단순한 빈도 기반 학습을 하기 때문에,
```
짧은 텍스트에서 빠르고 효과적으로 패턴을 잡아낼 수 있습니다.  
```
데이터 양이 적을 때:
- 딥러닝은 큰 데이터셋에서 제대로 학습하는 경향이 있습니다.
  데이터가 적을 경우 과적합(overfitting) 위험이 커지고, 성능이 불안정해질 수 있습니다.
- 반면, 머신러닝 모델은 적은 데이터에서도 충분히 성능을 발휘할 수 있습니다.
TF-IDF와 SVM/Naive Bayes 조합은 짧은 텍스트 분류에서 매우 좋은 성능을 내는 경우가 많습니다.
특히 간단한 이진 분류 문제에서는 머신러닝이 종종 더 나은 성능을 보입니다.

데이터가 많고, 텍스트가 길거나 문맥 파악이 중요한 경우: 딥러닝 추천✨

딥러닝 모델(LSTM, Transformer 등)은 시퀀스 데이터와 복잡한 문맥을 잘 처리합니다.
- 문장이 길고, 문맥 정보를 이해해야 하는 경우(예: 리뷰의 감성 분석, 대화 분석) 딥러닝 모델이 더 적합합니다.
임베딩(Embedding)을 사용한 딥러닝 모델은 단어의 의미를 더 잘 파악할 수 있습니다.
- 특히, 텍스트 내 다양한 단어가 같은 의미로 쓰이는 경우(동의어 문제) 딥러닝이 강점을 보입니다.

꼬리생각 결론: 언제 머신러닝이 더 나을까?

데이터의 양이 적거나 각 셀의 텍스트가 매우 짧고 단순할 때(예: 채팅, 짧은 리뷰)는 _머신러닝 모델_이 더 나은 선택이 될 수 있습니다.
반면, 텍스트가 길거나 문맥 파악이 중요한 작업에서는 _딥러닝 모델_이 더 나은 성능을 발휘할 가능성이 높습니다.

[시스템디자인] 머신러닝 디자인 패턴의 안티패턴(Antipatterns)이란?

Aloha oe AI — Thu, 26 Sep 2024 23:06:07 +0900

1. 머신러닝 디자인 패턴의 안티패턴(Antipatterns)이란 무엇인가요?

머신러닝이 실제 운영 환경에서 겪는 어려움들, 즉 비효율적이거나 비생산적인 운영 사례들을 '원인에서 문제 발생까지의 과정'으로 묶어 정리한 것입니다.
이러한 묶음을 '안티패턴(Antipatterns)'이라 부르며, 패턴은 크게 4가지로 구분됩니다.

디자인 패턴은 경험을 바탕으로 정의되었기 때문에 모든 어려운 상황에 대한 해결책이 되지는 않지만,

문제 발생 시 문제 해결의 방향을 잡는 데 매우 유용합니다.

머신러닝이 실제 운영 환경에서 겪는 어려움들?

❗Data quality (데이터 품질)
데이터의 정확성, 완전성, 일관성, 적시성을 포함한 데이터의 전반적인 품질 문제.
❗ Reproducibility (재현성)
동일한 데이터를 사용해 동일한 결과를 다시 얻을 수 있는 능력과 관련된 문제.
❗ Data Drift (데이터 변화)
시간에 따라 데이터의 분포가 변하는 현상으로, 모델 성능에 영향을 미칠 수 있는 문제.
❗ Scale (규모 확장성)
데이터나 시스템의 규모가 커지면서 발생하는 성능 저하나 운영상의 문제.

2. 왜 머신러닝 안티패턴이 필요한가요?

문제가 발생했을 때, 원인을 쉽게 파악하고 빠르게 해결 방안을 찾을 수 있기 때문입니다.

안티패턴은 머신러닝의 문제를,

✨4가지 운영 환경(SERVING, TRAINING, QA, OPERATION)으로 나누어

각 환경에서 발생할 수 있는 문제들을 정의합니다.

각 안티패턴은 다음과 같이 세 부분으로 구분 지어 보면 좋습니다 :

1. 문제나 문제 상황을 설명하는 Case(문제 사례)
2. 해당 문제를 야기한 환경을 설명하고 대안을 제시하는 Situation(환경)
3. 문제와 문제환경을 시각적으로 보여주는 Diagram(도식)

위 Github에서 안티패턴의 Case, Situation, Diagram, 장단점, 제안, 관련 디자인패턴 확인가능 (출처 이미지 클릭)

따라서 머신러닝 문제를 해결할 때,

서비스가 속한 운영 환경을 파악한 후 해당 환경에서 발생할 수 있는 문제 사례를 찾아 해결책을 제시할 수 있습니다.

3. 머신러닝 안티패턴 종류 4가지

안티패턴은 4가지 운영 환경(SERVING, TRAINING, QA, OPERATION) 패턴별로 정의됩니다.

각 운영 환경 패턴별 안티패턴들의 'Case(문제상황)'와 'Situation(환경)' 간단히 요약해 보았습니다.
자세한 내용은 출처에서 확인가능합니다.

☑️ SERVING 패턴의 안티패턴

(SERVING 패턴: 운영 환경에서 모델을 서빙하는 패턴)

Online bigsize pattern (온라인 대규모 패턴)
- Case(문제상황): 대규모 데이터를 실시간으로 처리할 때 발생하는 성능 문제.
- Situation(환경): 실시간 처리가 필요한 웹 서비스나 대규모 배치 시스템에서 모델의 예측 시간이 성능 요구 사항을 충족하지 못할 때 발생합니다. 대규모 복잡한 모델이 사용되면 처리 시간이 길어지기 때문에, 스케일 아웃이나 GPU 사용 등 최적화가 필요합니다
All-in-one pattern (올인원 패턴)
- Case(문제상황): 모든 기능을 하나의 시스템에 몰아넣는 비효율적인 설계로 인한 문제.
- Situation(환경): 하나의 시스템에 다양한 기능을 몰아넣으면 유지보수가 어려워지고, 시스템 성능이 저하되며 확장성도 제한됩니다. 분리된 서비스로 관리하는 것이 더 효과적일 수 있습니다

☑️ TRAINING 패턴의 안티패턴

(TRAINING 패턴: 모델 학습 파이프라인을 구성하기 위한 패턴)

Offline-only pattern (오프라인 전용 패턴)
- Case(문제상황): 모델을 오프라인에서만 학습시키고, 실시간 데이터와의 연동을 고려하지 않는 문제.
- Situation(환경): 오프라인에서만 모델을 테스트하면 실시간 데이터를 처리할 때 발생할 수 있는 성능 문제를 놓칠 수 있습니다. 따라서 실시간 환경에서도 모델이 제대로 작동하는지 검증하는 과정이 필요합니다

☑️ QA 패턴의 안티패턴

(QA 패턴: 운영 환경에서 모델 성능을 평가하는 패턴)

Only-me pattern (나만의 패턴)
- Case(문제상황): 성능 평가나 테스트를 너무 좁은 시각에서만 진행하는 문제.
- Situation(환경): 특정한 조건에서만 성능 테스트를 진행하면 실제 환경에서 발생하는 다양한 상황을 반영하지 못해 실질적인 성능 저하를 경험할 수 있습니다
Training code in serving pattern (서빙 환경에서 학습 코드 패턴)
- Case(문제상황): 모델 서빙 환경에서 학습 코드를 그대로 사용하는 비효율적인 문제.
- Situation(환경): 서빙과 학습 코드의 요구 사항이 다르므로 서빙 환경에 맞춘 최적화가 필요합니다
Too many pipes pattern (너무 많은 파이프라인 패턴)
- Case(문제상황): 너무 복잡한 파이프라인 구조로 인해 관리와 유지 보수가 어려운 문제.
- Situation(환경): 지나치게 복잡한 파이프라인은 시스템의 유연성을 떨어뜨리고, 버그 발생 시 원인을 찾기 어렵게 만듭니다

☑️ OPERATION 패턴의 안티패턴

(OPERATION 패턴: 모델 운영을 위한 패턴)

No logging pattern (로그 없음 패턴)
- Case(문제상황): 시스템 운영 중 발생하는 문제를 추적할 수 있는 로그가 부족한 상황.
- Situation(환경): 운영 중 발생하는 오류나 문제를 분석할 수 있는 로그가 없다면 문제 해결에 어려움을 겪게 됩니다. 적절한 로깅 시스템을 갖추는 것이 필수적입니다
Nobody knows pattern (아무도 모르는 패턴)
- Case(문제상황): 시스템이나 모델의 상태나 문제를 아는 사람이 없는 상황.
- Situation(환경): 시스템을 운영하는 사람들이 모델의 동작 방식이나 문제 해결 방안을 모르는 경우, 빠른 대응이 불가능해집니다. 이를 방지하기 위해 문서화와 지식 공유가 중요합니다

[AI정보] UPENN에서 언어모델(Language Modeling)컨퍼런스를 주최한다? COLM 2024 (Google DeepMind, Allen Institute for AI)

Aloha oe AI — Wed, 25 Sep 2024 22:25:02 +0900

Hello, COLM 2024

COLM 2024는 미국 아이비리그의 명문 대학인 Upenn에서 주최하는 '언어 모델링(Language Modeling)'을 주제로 한 
최초의 컨퍼런스로, 연구자들에게 새로운 학문적 통찰을 제공할 것으로 기대됩니다. 
이번 컨퍼런스는 특히 Denny Zhou(Google DeepMind)와 Yejin Choi(Allen Institute for AI) 
두 저명한 연구자들이 의장을 맡아 업계와 학계에서 큰 관심을 받고 있습니다.

Go to COLM 2024

Who are They? COLM 2024 의장 소개

[좌] Yejin Choi 의장, [우] Denny Zhou 의장 (출처: https://colmweb.org/)

Yejin Choi 의장 (Allen Institute for AI) :
Yejin Choi는 인간 언어와 AI 간의 상호작용을 연구하는 데 있어 세계적으로 저명한 인물입니다.

그의 연구는 사회적 상식(reasoning)과 문맥 이해를 통해 AI가 인간과 더 자연스럽게 소통할 수 있도록 하는 데 중점을 두고 있습니다. 또한, AI 윤리와 사회적 책임 문제에 깊은 관심을 가지며, 이를 연구에 반영하고 있습니다.

Allen Institute for AI와 University of Washington에서 활발히 연구를 수행 중이며, AI 업계에서 큰 영향력을 발휘하고 있습니다. 그의 연구와 경력에 대한 자세한 정보는 개인 웹사이트에서 확인할 수 있습니다.

Denny Zhou 의장 (Google DeepMind) :
Denny Zhou는 딥러닝의 효율성 향상과 모델 해석 가능성 분야에서 혁신적인 연구를 이끌고 있습니다.

그의 연구는 복잡한 시스템의 학습 및 추론 알고리즘 개발에 중요한 기여를 했으며, 특히 강화 학습과 그래디언트 부스팅 분야에서 탁월한 성과를 거두고 있습니다.

Google DeepMind라는 AI 연구의 선두 기관에서 활동하며, 그의 연구는 머신러닝 커뮤니티에서 많은 주목을 받고 있습니다. 자세한 내용은 그의 개인 웹사이트에서 확인할 수 있습니다.

COLM 2024 컨퍼런스는 두 의장님의 혁신적인 연구와 리더십 덕분에 신뢰성을 더욱 높이며, 학술적 깊이와 실무적 응용 가능성을 모두 겸비한 중요한 컨퍼런스로 자리 잡을 것으로 기대됩니다.

COLM 2024: 단순한 NLP를 넘어서는 새로운 시도

[좌] OpenAI CEO 샘 알트만, 2023년 5월 16일 미 상원 청문회, [우] 유럽연합(EU)의 'AI 법(AI ACT)', 2024년 8월 1일 발효. (출처 하단 본문 링크 참고)

COLM 2024는 언어 모델에 대한 연구를 심화하는 것뿐만 아니라, 최근 AI 윤리에 대한 논의가 중요한 시점에서 그 의미가 더욱 큽니다. OpenAI의 국제 통제기구 설립 제안(2023년 5월)과 AI Act의 발효(2024년 8월)로 인해, AI 윤리와 관련 규제는 업계의 성장은 물론, 세계적인 경쟁력에 직접적인 영향을 미칠 이슈로 떠올랐습니다.

이번 컨퍼런스는 언어 모델의 해석 가능성과 데이터 효율성을 주제로 다룰 뿐만 아니라, 프라이버시, 사회적 책임 및 AI의 윤리적 문제를 심도 있게 논의합니다. 이는 단순한 NLP 연구를 넘어, AI가 인간 사회에 미치는 영향과 책임에 대해 깊이 있는 토론을 유도할 것입니다. 특히 윤리 문제는 AI 연구의 본질적인 도전 과제로 부상하고 있으며, COLM 2024에서 제시될 논의는 AI 연구자들이 앞으로 해결해야 할 중요한 질문들을 던질 것입니다.

COLM 2024에서 기대할 수 있는 연구 주제

이번 컨퍼런스에서는 대형 언어 모델(LLM)을 중심으로 한 다양한 연구들이 발표됩니다.

언어 모델의 성능 향상, 안정성, 데이터 효율성 등의 주제가 다루어질 뿐만 아니라, 사회적 상식(reasoning), 상호작용, 그리고 다국어 처리 등도 주요 논의 주제입니다. 특히, 최신 연구들이 AI의 실용적 응용과 윤리적 책임을 어떻게 결합할 수 있을지에 대한 흥미로운 논문들이 많이 제출될 예정입니다.

COLM 2024의 미래 전망

COLM 2024은 언어 모델링을 중심으로 AI 연구의 새로운 트렌드를 제시할 것으로 보입니다. 특히 Google DeepMind와 Allen Institute for AI와 같은 선두 연구 기관에서 주최하는 만큼, 이번 학술대회는 학문적 깊이뿐 아니라 산업적 응용 측면에서도 연구자들에게 매력적인 장이 될 것입니다.

COLM 2024는 AI 연구자들에게 최신 연구 발표와 네트워킹 기회를 제공하며, 앞으로 언어 모델링 연구를 주도할 중요한 컨퍼런스로 자리매김할 것입니다.

[함수정리] ML, DL, AI, 데이터분석 기초 : 데이터 전처리

Aloha oe AI — Tue, 24 Sep 2024 22:09:30 +0900

데이터 전처리에서는 뭐를 해야하나?

데이터 전처리는 데이터분석, 머신러닝(ML), 딥러닝(DL), 그리고 인공지능(AI)에서 필수적인 과정입니다. 
데이터를 효과적으로 사용하기 위해 필수적인 과정이죠!

 데이터 분석에서의 전처리는, '결측치 처리', '이상치 처리', '정규화' 등으로 
	 통계적 분석의 신뢰성과 정확성을 향상 시키기 위해 진행하고
 머신러닝에서는,   
 	 '스케일링', '범주형 데이터 처리', '중복 제거'등으로  
 딥러닝에서는,  
 	 '이미지 데이터 처리(pixel값 정규화 등)', 
	 '텍스트 데이터 처리(텍스트 토큰화 등)', 
	 '데이터 증강(augmentation)'등으로  
 모델이 학습하기 좋도록 데이터 정리하여 좋은 성능을 내는데 일조한답니다!

우선 아래 본문에서, 
'결측치 처리', '이상치 처리', '정규화', '범주형 데이터 처리', '중복 제거' 
5가지 작업과 작업에 쓰이는 함수들을 알아보겠습니다. (✨ )

적어도 분석 전 혹은 머신러닝 모델을 훈련하기 전에는,
항상 데이터를 정제하고 처리하는 전처리 작업을 필수적으로 진행 해야 합니다.
(왜냐면 데이터 전처리가 제대로 되어 있지 않면, 분석 결과나 모델의 성능이 왜곡될 수 있거든요!)

1. 데이터 분석하기 전에 "라이브러리"부터 불러오기!

✅ 일단 잘 모르겠으면 아래 3대장 불러오기!

#판다스
import pandas as pd 
# 데이터프레임 다루는 함수들 가져옴(`pd.read_csv()`,`dropna()`, `isnull()` 등)

#넘파이
import numpy as np   
# 연산에 사용. 수치 계산, 배열 작업 필요한 전처리 작업중 사용(`sum()`,`mean()`,`np.array()` 등)

#스킷런
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder 
# 데이터 정규화 및 범주형 데이터 인코딩 관련 함수들

2. 데이터 전처리에서 사용하는 함수

아래 전처리의 5가지 작업과 작업별 대표적인 함수, 코드 예시를 정리해보았습니다,

2.1. 결측치 처리

✅ 결측치란?

데이터셋에서 값이 비어 있는 경우를 말합니다.

이를 처리하지 않으면 분석에 문제가 될 수 있어서 적당한 처리가 필요합니다.
그래서 결측치가 확인된 경우, 삭제하거나 특정값으로 채우는 처리를 진행합니다.

✔️ 결측치 처리 함수:

`isnull()` : 결측치 확인
`fillna()` : 결측치를 특정 값으로 채우기
`dropna()` : 결측치가 있는 행을 삭제하기

️ 결측치 확인, 채우기, 행 삭제

# 결측치 확인
data.isnull().sum()

# 결측치를 0으로 채우기
data_filled = data.fillna(0)

# 결측치가 있는 행을 삭제
data_dropped = data.dropna()

2.2. 이상치 처리

✅ 이상치란?

이상치는 데이터에서 비정상적으로 큰 값이나 작은 값이 나타나는 경우를 말합니다.
이런 값들을 처리해야 분석에 왜곡이 생기지 않습니다.

✔️ 이상치 처리 함수 :

`quantile()` : 이상치 탐지
`clip()` : 이상치 처리 (최소, 최대값으로 조정)

특정 열의 이상치 처

# 예를 들어, 데이터에서 특정 열에 대한 이상치 탐지 및 처리
q1 = data['some_numeric_column'].quantile(0.25)
q3 = data['some_numeric_column'].quantile(0.75)
iqr = q3 - q1

# IQR을 이용해 이상치 범위를 벗어난 값을 제거
lower_bound = q1 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr

data_outliers_removed = data[(data['some_numeric_column'] >= lower_bound) & 
                             (data['some_numeric_column'] <= upper_bound)]

2.3. 데이터 정규화

✅ 정규화?

정규화는 데이터의 범위를 조정하는 과정을 말합니다.
머신러닝에서 다양한 범위의 데이터를 비슷한 범위로 맞춰주면 모델 성능이 좋아질 수 있습니다.

✔️ 데이터 정규화 함수 :

`MinMaxScaler()` : 최소-최대 정규화
`StandardScaler()` : 표준화 (평균이 0, 표준편차가 1로 조정)

MinMaxScaler(): 데이터 값을 0과 1 사이로 변환

from sklearn.preprocessing import MinMaxScaler

# 최소-최대 정규화
scaler = MinMaxScaler()
data_scaled = scaler.fit_transform(data[['some_numeric_column']])

# DataFrame에 다시 저장
data['scaled_column'] = data_scaled

StandardScaler(): 데이터를 평균 0, 표준편차 1로 변환

from sklearn.preprocessing import StandardScaler
import numpy as np

# 예시 데이터 (2D 배열)
data = np.array([[1, 2], [2, 4], [3, 6], [4, 8]])

# StandardScaler 사용
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

print("StandardScaler로 변환된 데이터:\n", scaled_data)

2.4. 범주형 데이터 변환

✅범주형 데이터 변환?

범주형 데이터는 고유값 혹은 범주로 구성된 데이터이고,

(ex. 색상 ["Red","Blue","Green"], 도시 ["SEL","NYC."LAX","PAR","MIL"]

범주형 데이터의 변환은, 고유값과 범주를 숫자형으로 변환하는 작업을 말합니다.

예를들어,

레이블 인코딩은 범주형 데이터를 각 범주에 숫자를 할당하여 변환하는 방식이고,

도시 ["SEL","NYC."LAX","PAR","MIL"]
⇒ [ 9, 5, 3, 7, 4 ]

원-핫 인코딩은 범주형 데이터를 이진 벡터로 변환하는 방식입니다.

색상 ["Red","Blue","Green"]
⇒ [ 0, 0, 1 ]
⇒ [ 0, 1, 0 ]
⇒ [ 1, 0, 0 ]

✔️ 범주형 데이터 변환 함수 :

`pd.get_dummies()` : 원-핫 인코딩
`LabelEncoder()` : 레이블 인코딩

pd.get_dummies() : 원-핫 인코딩

import pandas as pd

data = ['red', 'green', 'blue']
one_hot_encoded_data = pd.get_dummies(data)
print(one_hot_encoded_data)

''' 출력 :
   blue  green  red
0     0      0    1
1     0      1    0
2     1      0    0
'''

LabelEncoder() : 레이블 인코딩

from sklearn.preprocessing import LabelEncoder

data = ['red', 'green', 'blue']
label_encoder = LabelEncoder()
encoded_data = label_encoder.fit_transform(data)
print(encoded_data)  # 출력 : [2 1 0]

2.5. 중복 데이터 제거

✅ 중복된 데이터는 분석에 방해가 될 수 있어서 제거합니다.

✔️ 중복된 데이터 제거 함수 :

drop_duplicates(): 중복된 행 제거

# 중복된 행 제거
data_no_duplicates = data.drop_duplicates()

[시각화] matplotlib pyplot 만져보기 : (선행대수) 벡터, 그리드 생성, 축 설정, 축 라벨 추가

Aloha oe AI — Wed, 18 Sep 2024 21:08:36 +0900

라이브러리 불러오기

import numpy as np
import matplotlib.pyplot as plt

# 행렬과 벡터를 위해 numpy 불러오기
# 벡터 시각화를 위해 pylot 불러오기

pyplot의 subplots 시각화 함수로 "x,y축, 라벨, 범례, 그리드활성" 만들기

# 시각화
fig, axs = plt.subplots()

# 그리드를 생성합니다.
x_vals = np.linspace(0, 2, 5)  # -5에서 5 사이의 11개의 점 (축과 맞추기 위함)
y_vals = np.linspace(0, 2, 5)  # -5에서 5 사이의 11개의 점 (축과 맞추기 위함)
X, Y = np.meshgrid(x_vals, y_vals)

# 벡터 1, 2
axs.arrow(0, 0, 1.9, 1.9, head_width=0.1, head_length=0.1, fc='pink', ec='pink')
axs.arrow(0, 0, 1.9, 0.9, head_width=0.1, head_length=0.1, fc='red', ec='red')
axs.plot(X, Y, color="brown", alpha=0.5, linestyle="--", label='limit x',lw=1) # 시작점(x,0) # alpha는 투명도
axs.plot(X.T, Y.T, color="orange",       linestyle="--", label='limit y',lw=1) # 시작점(0,y)

# 축 설정
axs.set_xlim(0, 3)  # x축 범위
axs.set_ylim(0, 3)  # y축 범위

# 축 라벨과 그리드 추가
axs.set_xlabel('X-axis')
axs.set_ylabel('Y-axis')
axs.grid(True) # True = 그리드 추가함 , False = 추가 안함

plt.show()

[AI정보] 중국계 인공지능 커뮤니티가 있다? Machine Heart(机器之心)

Aloha oe AI — Mon, 16 Sep 2024 23:43:51 +0900

이 페이지는 9월 25일 업로드한 정보글 "[AI정보] UPENN에서 언어모델(Language Modeling)컨퍼런스를 주최한다? COLM 2024 (Google DeepMind, Allen Institute for AI)" 작성중 알게된 정보입니다.
자매글이 업로드되어 링크 공유합니다.

⬇️ ⬇️ 링크 걸어 놓았습니다 ⬇️ ⬇️

https://whosaidiamdev.tistory.com/10

Machine Heart (机器之心)

기계의 마음...??

중국 인공지능 커뮤니티(Machine Heart)는 어쩌다 찾은 거야?

연휴 기간동안 논문 <AutoGen>을 읽어보려고 찾다가 우연히 해당 논문이 2024년 COLM (Conference on Language Modeling)이라는 학술대회의 학회 논문으로 발표되었다는 문구를 읽었다.

COLM (Conference on Language Modeling)
2024년 10월 7~9일 개최하는, 인공지능 및 자연어 처리 관련, 언어(LMs) 모델 연구 중점 학술대회.
펜실베니아 대학(University of Pennsylvania)에서 주최하고, Yejin Choi*교수님과 Denny Zhou수석**님께서 의장을 맡고 계신다,

* University of Washington, Allen Institute for AI 연구소 시니어 연구원 (Professor & Senior researcher)
** Google DeepMind 언어모델 및 추론기법 총책임 수석과학자(Research lead & Principal scientist)

논문 프리프린트(preprint)라는 개념이 없었던 터라
"이미 arXiv라는 곳에 서밋된 논문을 왜 다른 학술대회에 다시 출판하지?"라는 생각이 들어
해당 컨퍼런스를 구글링 해보았다(Offical page : COLM).

구글링중 해당 컨퍼런스에 대해 소개한 어떤 페이지를 들어갔는데 왠걸 중국어로 된 AI 커뮤니티 아닌가?

[글제목] 미래 대규모 언어 모델 학회의 탄생? Danqi Chen 및 연구자들, COLM 학술대회 창설. 언어 모델링 연구의 새로운 플랫폼 제공

그렇다. 나는 이렇게 공부 전 딴짓으로 중국에서 가장 영향력있다는 인공지능 커뮤니티 Machine Heart(기계지심)를 발견했다.

처음 들어보는데? 커뮤니티 진짜 괜찮은 곳 맞아?

네. 맞습니다.

괜찮을 뿐만 아니라,

인공지능 단독 플렛폼중 가장 오래되었을 뿐만 아니라

중국 국내에서 굉장히 높은 신뢰도와 전문성을 인정 받은 커뮤니티였습니다.

사실 저도 해당 커뮤니티 웹 페이지의 기사 신뢰성을 확인을 위해

한국어로 커뮤니티를 검색 해보았고 아무런 정보가 나오지 않아서 의심했습니다만...

정말 이것 외에도 몇 가지 더 시도해보았지만 한국어 자료는 나오지 않더군요

다만 아래 몇 가지로 그 위상을 체감하고 인정(?)하게 되었습니다.

To be Continue...

< 예 고 편 >

"나락으로 가는가? Reflection 70B 때문에 성능 조작 의혹 받는 Llama 3, 위기 직면" (링크)

[시각화] #01_세그멘테이션 함수 써보기 : 우주대스타 덕구를 진짜 우주로!

Aloha oe AI — Wed, 11 Sep 2024 19:11:18 +0900

우주대스타 덕구를 진짜 우주로!

오늘 제 페이보릿 인플루언서 멍멍이 덕구(@life_of_duckoo)를 
`pixellib`라이브러리의 인스턴트 세그멘테이션 모델을 사용해서 ✨우주 로 보내보겠습니다.
우주대스타가 있어야 할 곳은 우주니까요! (가자! 덕구!!  )

# 이미지 불러오기
img_path = os.getenv('HOME')+'/codeblog/images/dogbig.png'
img_orig = cv2.imread(img_path)

# 이미지 크기 확인
print(img_orig.shape)

# 불러온 이미지 확인
plt.imshow(cv2.cvtColor(img_orig, cv2.COLOR_BGR2RGB))
# cv2.COLOR_BGR2RGB 원본이 BGR 순서로 픽셀로 바꿔주기
plt.show()

(540, 540, 3)

(사진출처 : 인스타그램 "life_of_duckoo")

✅사용할 우주 배경 이미지도 불러온다

# 배경 이미지 불러오기
img_path_space = os.getenv('HOME')+'/codeblog/images/space.png'
img_orig_space = cv2.imread(img_path_space)

print(img_orig_space.shape) # 이미지 크기 확인

# 불러온 벼경 이미지 확인
plt.imshow(cv2.cvtColor(img_orig_space, cv2.COLOR_BGR2RGB))
# cv2.COLOR_BGR2RGB 원본이 BGR 순서로 픽셀로 바꿔주기
plt.show()

(380, 503, 3)

공 습 경 보 !!!!!

❗배경이미지 `cv2.resize` 해야지 맨 마지막 이미지 합성 단계에서 오류 안 뜸

덕구를 보다 더 큰 우주로 보내고픈 마음에 배경 이미지를 크게 늘렸지만 아래 cocat합성(`np.where`) 진행 시 오류가 떴다.

작은 우주도 우주다!

➡️ 우주 배경이미지 크기 조정함 (덕구 사진과 동일한 크기로 줄임!)

Solution : 우주 배경사진 사이즈 조정

# 이미지 크기 변경     # (380, 503, 3)
new_size = (540, 540)  # (width, height)
img_resized_space = cv2.resize(img_orig_space, new_size)

# 변경된 배경이미지 크기 확인
print("Resized shape:", img_resized_space.shape)
# 시각화
plt.imshow(cv2.cvtColor(img_resized_space, cv2.COLOR_BGR2RGB))
plt.show()

Resized shape: (540, 540, 3)

2. 모델 및 세그멘테이션 함수 선택

✅PixelLib의 pascalvoc 새그맨테이션 함수 동물도 잘 인식한다고 하여서 사용

# 모델 가져오기
model_dir = os.getenv('HOME')+'/codeblog/models'
model_file = os.path.join(model_dir, 'deeplabv3_xception_tf_dim_ordering_tf_kernels.h5')

# PixelLib가 제공하는 모델의 url
model_url = 'https://github.com/ayoolaolafenwa/PixelLib/releases/download/1.1/deeplabv3_xception_tf_dim_ordering_tf_kernels.h5'

# 다운로드 시작
urllib.request.urlretrieve(model_url, model_file)
# 원리 :
# urllib 패키지 내에 있는 request 모듈의 urlretrieve 함수를 이용해서 model_url에 있는 파일을 다운로드 해서 model_file 파일명으로 저장

('/codeblog/models/deeplabv3_xception_tf_dim_ordering_tf_kernels.h5',
 <http.client.HTTPMessage at 0x7ec9241386a0>)

✅인스턴스 & 모델 선택 : semantic segmentation & pascalvoc

# PixelLib 클래스를 가져와서 semantic segmentation 인스턴스를 만듦
model = semantic_segmentation()

# pascal voc에 대해 훈련된 예외 모델(model_file)을 로드하는 함수를 호출
model.load_pascalvoc_model(model_file)

3. 이미지 분할, 배열 값 확인

✅ Pascalvoc 함수 가져오기

segvalues, output = model.segmentAsPascalvoc(img_path)

➡️ segmentAsPascalvoc() 함수 호출하여 입력된 이미지의 "분할, 분할 출력의 배열" 가져옴
➡️ 분할은, pacalvoc 데이터로 학습된 모델을 이용하여 진행됨

✅ Pascalvoc의 라벨 확인

# pascalvoc 데이터의 라벨종류
LABEL_NAMES = [
    'background', 'aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus',
    'car', 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse', 'motorbike',
    'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tv'
]
len(LABEL_NAMES)

✅함수 segmentAsPascalvoc() 호출하여 얻는 결과값(segvalues, output) 확인.

✔️결과값( segvalues ) 확인

# segvalues중 인스턴스로 인식된 것 확인 (class_ids)
print(segvalues)

{'class_ids': array([ 0,  5, 11, 12]), 'masks': array([[False, False, False, ...,  True,  True,  True],
       [False, False, False, ...,  True,  True,  True],
       [False, False, False, ...,  True,  True,  True],
       ...,
       [ True,  True,  True, ..., False, False, False],
       [ True,  True,  True, ..., False, False, False],
       [ True,  True,  True, ..., False, False, False]])}

✔️결과값( output ) 확인

# segvalues중 인스턴스로 인식된 것 확인 (영문명)
for class_id in segvalues['class_ids']:
    print(LABEL_NAMES[class_id])

background
bottle
diningtable
dog

✅ Output 시각화하여, 인스턴스 구분 잘됐나 확인

# segmentAsPascalvoc() 함수 호출하여 입력된 이미지를 분할한 뒤 나온 결과값 중 
# output을 matplotlib을 이용해 출력
plt.imshow(output)
plt.show()

4. Color Map 조정 (BGR->RGB)

✅ 조정해 주면서, class_id 4개의 rgb를 알아보자!

Color map은 (R, G, B)로 입력하야 하는데, ` pascalvoc`는 (B, G, R)로 색상을 인식
고로, for문 사용해서 순서 바꿔준다
그다음 color map에서 인스턴스별 컬러코드 확인하기
참고로 우리 우주대스타 덕구 사진 속 인스턴스의 class_id : 배경(0), 병(5), 식탁(11), 개(12)

colormap = np.zeros((256, 3), dtype = int)
ind = np.arange(256, dtype=int)

for shift in reversed(range(8)):
    for channel in range(3):
        colormap[:, channel] |= ((ind >> channel) & 1) << shift
    ind >>= 3

colormap[:20] #생성한 20개의 컬러맵 출력

print(colormap[0])   # 배경
print(colormap[5])   # 병
print(colormap[11])  # 식탁
print(colormap[12])  # 개

[0 0 0]
[128   0 128]
[192 128   0]
[ 64   0 128]

✅ 우주대스타 덕구(Dog)의 색상순서도 바꿔주기 : BGR 순으로 정리된 color map을 RGB로 바꿔주기

그렇다. Dog의 ( 64 0 128)는 사실 (128, 0, 64)인 것!

seg_color = (128,0,64) # RGB -> BGR

seg_map = np.all(output==seg_color, axis=-1) 
print(seg_map.shape) 
plt.imshow(seg_map, cmap='gray')
plt.show()

(540, 540)

PreTEST : 원본이미지(img_show)와 마스크이미지(img_mask) 가중치 정해서 합쳐보기

# 원본이미지를 img_show에 할당한뒤 
# 이미지 dog이 있는 위치와 배경을 분리해서 표현한 color_mask 를 만든뒤 두 이미지를 합쳐서 출력
img_show = img_orig.copy()

# True과 False인 값을 각각 255과 0으로 바꿔줍니다
img_mask = seg_map.astype(np.uint8) * 255

# 255와 0을 적당한 색상으로 바꿔봅니다
color_mask = cv2.applyColorMap(img_mask, cv2.COLORMAP_JET)

# 원본 이미지와 마스크를 0.6과 0.4의 비율로 섞어 봅니다  
img_show = cv2.addWeighted(img_show, 0.6, color_mask, 0.4, 0.0)

plt.imshow(cv2.cvtColor(img_show, cv2.COLOR_BGR2RGB))
plt.show()

5. 이미지 합치기 : 덕구를 우주로!

✅ 배경 이미지 아주 살짝만 흐리게! (덕구가 잘 보여야 하니깐요!)

img_space_blur = cv2.blur(img_resized_space, (25,25))  
# img_space_blur = cv2.blur(img_resized_space, (99,99)) # 커널이 크니 너무 흐리다
plt.imshow(cv2.cvtColor(img_space_blur, cv2.COLOR_BGR2RGB)) # BGR 형식 -> RGB 형식   
plt.show()

✅ 배경 이미지에 덕구 자리를 만들어줘요!

# Dog의 마스크 인식
img_mask_color = cv2.cvtColor(img_mask, cv2.COLOR_GRAY2BGR)

# cv2.bitwise_not() 사용하여, 배경 : 0 -> 255 , 덕구(dog) : 255 -> 0
img_bg_mask = cv2.bitwise_not(img_mask_color)

# cv2.bitwise_and() 사용하여 블러 처리된 우주배경이미지에 덕구 자리를 만들어 준다
img_bg_blur = cv2.bitwise_and(img_space_blur, img_bg_mask)
plt.imshow(cv2.cvtColor(img_bg_blur, cv2.COLOR_BGR2RGB))
plt.show()

자! 이제...

☑️ 우주대스타를 우주로! (`np.where`로 두 사진 합치기) ➕

# 합치고
img_concat = np.where(img_mask_color==255, img_orig, img_bg_blur)
# 봅시다
plt.imshow(cv2.cvtColor(img_concat, cv2.COLOR_BGR2RGB))
plt.show()

안녕, 덕구야

잘 다녀와!

✨

[번역] 전치 합성곱을 사용한 업샘플링(Up-sampling with Transposed Convolution)

Aloha oe AI — Fri, 6 Sep 2024 22:35:43 +0900

출처 : https://kikaben.com/up-sampling-with-transposed-convolution/
참고용 깃허브 : https://github.com/naokishibuya/deep-learning/blob/master/python/transposed_convolution.ipynb
자료 제목 :Up-sampling with Transposed Convolution

Gentle Reminder : 번역 중 중심내용은 되도록 직역, 아닌 부분은 가독성을 위해 의역을 사용하였습니다. 정확한 내용은 위 출처 원문에서 확인 가능합니다. 아래 글은 영문 원문 읽기 전 참고용으로만 사용하기를 권장드립니다.

Up-sampling with Transposed Convolution

게재일 2017년 11월 13일

전치 합성곱에 대해 들어보았지만 아직 개념이 헷갈린다면 아래 글을 읽어보기를 바랍니다.

1. 업샘플링이 필요한 이유

신경망을 사용하여 이미지를 생성할 때는 보통 저해상도에서 고해상도로 업샘플링을 수행해야 합니다.

업샘플링을 수행하는 다양한 방법이 있습니다:

- 최근접 이웃 보간법 (Nearest neighbor interpolation)
- 바이리니어 보간법 (Bi-linear interpolation)
- 바이큐빅 보간법 (Bi-cubic interpolation)

이 모든 방법은 네트워크 아키텍처를 결정할 때 우리가 선택해야 하는 보간법을 포함합니다.
이는 수동적인 특징 공학과 비슷하며, 네트워크가 학습할 수 있는 여지는 없습니다.

2. 왜 전치 합성곱(Transposed Convolution)을 사용할까?

네트워크가 최적으로 업샘플링을 학습하도록 하려면 전치 합성곱을 사용할 수 있습니다.
이는 미리 정의된 보간법을 사용하지 않고, 학습 가능한 매개변수를 가지고 있습니다.

전치 합성곱 개념을 이해하는 것은 중요한 논문과 프로젝트에서 유용합니다.

예를 들어:

DCGAN의 생성자는 임의로 샘플링된 값을 사용하여 전체 크기의 이미지를 생성합니다.
시맨틱 분할(semantic segmentation)에서 인코더는 합성곱 계층을 사용하여 특징을 추출하고, 디코더는 원본 이미지 크기로 복원하여 원본 이미지의 각 픽셀을 분류합니다.

참고로 전치 합성곱은 Fractionally-strided convolution 또는 Deconvolution(역합성곱)이라고도 불립니다.
이 글에서는 전치 합성곱이라고만 부르지만, 다른 글에서는 대체 명칭을 볼 수 있습니다.

3. 합성곱 연산(Convolution Operation)

합성곱 연산이 어떻게 작동하는지 간단한 예시를 통해 설명하겠습니다.

4x4 행렬이 있고, 3x3 커널을 사용해 패딩 없이 스트라이드 1로 합성곱 연산을 적용한다고 가정해 봅시다.
아래에 나온 것처럼 출력은 2x2 행렬입니다.

합성곱 연산은 입력과 커널 행렬 사이의 요소별 곱의 합을 계산합니다.
우리는 패딩 없이 스트라이드 1을 사용하므로 이 계산을 4번만 수행할 수 있습니다. 따라서 출력 행렬은 2x2입니다.

이러한 합성곱 연산의 중요한 점은 입력 값과 출력 값 사이에 위치적 연결성이 존재한다는 것입니다.

예를 들어,
입력 행렬의 좌측 상단 값은 출력 행렬의 좌측 상단 값에 영향을 미칩니다.

3x3 커널을 사용하여 9개의 입력 행렬 값을 하나의 출력 값에 연결합니다. 합성곱 연산은 다대일 관계를 형성합니다.
이 점을 기억해 두면 이후에 유용하게 쓰입니다.

4. 역으로 가기(Going Backward)

이제 역방향으로 가고 싶다고 가정해 봅시다. 한 행렬의 하나의 값을 다른 행렬의 9개의 값에 연결하고자 합니다. 이는 일대다 관계이며, 합성곱 연산을 역으로 수행하는 것과 같습니다. 이것이 전치 합성곱의 핵심 아이디어입니다.

예를 들어, 2x2 행렬을 4x4 행렬로 업샘플링합니다. 이 연산은 1대 9의 관계를 유지합니다.

하지만 어떻게 이런 연산을 수행할까요?

이를 설명하기 위해서는 합성곱 행렬과 전치 합성곱 행렬을 정의해야 합니다.

5. 합성곱 행렬(Convolution Matrix)

합성곱 연산을 행렬로 표현할 수 있습니다.

이는 커널 행렬을 재배열하여 행렬 곱셈으로 합성곱 연산을 수행할 수 있게 하는 방식입니다.

예를 들어, 위와 같은 3x3 커널을 4x16 행렬로 재배열하면 아래와 같습니다.

이것이 합성곱 행렬입니다.

각 행은 하나의 합성곱 연산을 정의합니다.

잘 이해되지 않으면, 아래 다이어그램이 도움이 될 수 있습니다.

합성곱 행렬의 각 행은 다른 위치에 0 패딩이 있는 커널 행렬을 재배열한 것입니다.

이 행렬을 사용하려면, 아래와 같이 입력 행렬(4x4)을 열 벡터(16x1)로 평탄화(flatten) 해야 합니다.

그다음 4x16 합성곱 행렬과 16x1 입력 행렬(16차원 열 벡터)을 행렬 곱셈합니다.

[좌] 4*4→16*1 입력행렬의 평탄화(flatten), [우] 합성곱행렬(4*16)과 입력 행렬(16*1)의 행렬 곱셈

이렇게 출력된 4x1 행렬은 2x2 행렬로 재구성할 수 있으며, 이는 동일한 결과를 제공합니다.

이것이 가능한 이유는,

합성곱 행렬은 재배열된 커널 가중치일 뿐이며, 합성곱 연산은 합성곱 행렬로 표현하기 때문입니다.

위의 말을 다른 식으로 말해보자면,

합성곱 행렬이 4x16일 때 합성곱 행렬을 사용하면 16(4x4)에서 4(2x2)로 변환할 수 있고,

반대로 만약 행렬이 16x4이라 4(2x2)에서 16(4x4)으로 갈 수 있다는 것입니다.

무슨 말이냐고요? 당황하지 마세요.
아래에서 다시 설명해 보겠습니다.

6. 전치 합성곱 행렬(Transposed Convolution Matrix)

만약 4(2x2)에서 16(4x4)으로 변환하고 싶다면, 우리는 16x4 행렬을 사용합니다. 여기서 중요한 것은 1대 9 관계를 유지해야 한다는 것입니다.

합성곱 행렬 C(4x16)를 전치(C.T)하여 C.T(16x4)를 만들고, 열 벡터(4x1)와 행렬 곱셈하여 출력 행렬(16x1)을 생성할 수 있습니다. 전치된 행렬은 하나의 값을 출력에서 9개의 값에 연결합니다.

출력은 4x4로 재구성할 수 있습니다.

이로써 작은 행렬(2x2)을 더 큰 행렬(4x4)로 업샘플링했습니다.

전치 합성곱은 가중치 배치를 통해 1대9 관계를 유지합니다.

참고로, 실제 가중치 값은 원래 합성곱 행렬에서 오지 않습니다.

중요한 것은 가중치 배치가 전치된 합성곱 행렬의 모양과 동일하게 배열된다는 점입니다.

7. 요약

전치 합성곱 연산은 일반적인 합성곱과 동일한 연결성을 형성하지만, 방향만 반대입니다.

이 방법을 사용하여 업샘플링을 수행할 수 있습니다.

게다가 전치 합성곱의 가중치는 학습 가능합니다.

그래서 미리 정의된 보간법이 필요 없습니다.

전치 합성곱이라고 해서 기존 합성곱 행렬을 가져와서 전치된 버전을 사용한다는 뜻은 아닙니다.

중요한 것은 입력과 출력 사이의 연결이 일반적인 합성곱 행렬과는 반대로 처리된다는 점입니다(일대다 관계, 일반 합성곱의 다대일 관계와 반대).

따라서 전치 합성곱은 합성곱이 아닙니다만 전치 합성곱을 합성곱으로 에뮬레이션 할 수 있습니다.

입력 행렬의 값 사이에 0을 추가하여 입력을 업샘플링한 후 합성곱을 수행하면 전치 합성곱과 동일한 효과를 낼 수 있습니다. 그러나 입력을 업샘플링하기 위해 0을 추가해야 하므로 비효율적입니다.

주의할 점: 전치 합성곱은 생성된 이미지에서 체커보드 아티팩트(체커보드 패턴)를 유발할 수 있습니다. 이러한 문제를 줄이기 위해 보간 방법(업샘플링 연산) 후에 합성곱 연산을 사용하는 것이 권장됩니다. 이미지에서 이러한 아티팩트 없이 생성하는 것이 목표라면 관련 논문을 읽어보는 것이 좋습니다.

DeepLearning101_07_케라스완전정복_Code : 사용자 정의 '지표' 만들기

Aloha oe AI — Wed, 4 Sep 2024 22:16:52 +0900

Recreating code 7-18 from book "Deep Learning with Python" by François Chollet

CODE 7-18 : Metric 클래스 상속하여 사용자 정의 지표 구하기

Import Tools

'''python
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.datasets import mnist
'''

Define Functions

'''python

defining_model

def get_mnist_model():
inputs = keras.Input(shape=(28*28,))
features = layers.Dense(512, activation="relu")(inputs)
features = layers.Dropout(0.5)(features)
outputs = layers.Dense(10, activation="softmax")(features)
model = keras.Model(inputs, outputs)
return model

defining_metrics

class RootMeanSquaredError(keras.metrics.Metric): # metric클래스를 상속합니다
def init(self, name="", *kwargs):
super().init(name=name, *kwargs)
self.mse_sum = self.add_weight(name="mse_sum", initializer="zeros")
self.total_samples = self.add_weight(
name="total_samples", initializer="zeros", dtype="int32")
# 생성자에서 상태 변수를 정의합니다. 층과 마찬가지로 add_weight()매서드를 사용합니다

def update_state(self, y_true, y_pred, sample_weight=None):
    y_true = tf.one_hot(y_true, depth=tf.shape(y_pred)[1])
    mse = tf.reduce_sum(tf.square(y_true - y_pred))
    self.mse_sum.assign_add(mse)
    num_samples = tf.shape(y_pred)[0]
    self.total_samples.assign_add(num_samples)

def result(self):
    return tf.sqrt(self.mse_sum / tf.cast(self.total_samples, tf.float32))

def reset_state(self):
    self.mse_sum.assign(0.)
    self.total_samples.assign(0)
    # 객체 다시 생성하지 않고 상태 초기화하는 방법 제공!
    # 왜 ? 초기화 해야 지표 객체 1개로 서로 다른 훈련 반복, 평가 등 모두 사용 할 수 있음
    # 근데 : 초기화 하지 않으면 이 클래스에 이전 데이터 영향을 주나? 클래스의 메모리란 뭐지?

'''

Let's See How it Works!

'''python

데이터 불러오기

(images, labels),(test_images, test_labels) = mnist.load_data()

데이터 전처리

images = images.reshape((60000, 2828)).astype("float32") / 255
test_images = test_images.reshape((10000, 2828)).astype("float32") / 255

train 과 validation 데이터 나누기

train_images, val_images = images[10000:], images[:10000]
train_labels, val_labels = labels[10000:], labels[:10000]

shape check

print(f" 훈련_X : {train_images.shape}")
print(f" 검증_X : {val_images.shape}")
print(f" 텟트_X : {test_images.shape}")
print(f" 훈련_y : {train_labels.shape}")
print(f" 검증_y : {val_labels.shape}")
print(f" 텟트_y : {test_labels.shape}")
'''

Set Model, Train, Validate, Evaluate

'''python
model = get_mnist_model()
model.compile(optimizer="rmsprop",
loss="sparse_categorical_crossentropy",
metrics=["accuracy",RootMeanSquaredError])
# 상위 사용자 정의 '지표'(RootMeanSquaredError), 표준위크플로 모델설계 'metric(지표)'부분에 추가함
model.fit(train_images, train_labels,
epochs=3,
validation_data=(val_images,val_labels))
test_metrics = model.evaluate(test_images, test_labels)
'''

DeepLearning101_07_케라스완전정복_워크플로우란?

Aloha oe AI — Tue, 3 Sep 2024 23:14:31 +0900

Keras는 모델 훈련을 위한 다양한 워크플로를 제공한다.
워크플로란 딥러닝 모델의 전체과정으로,
데이터 수집*과 *전처리, 모델의 설계, 훈련, 검증, 튜닝, 평가, 배포, 모니터링까지 과정의 단계들을 내포한다.

만드는 것도, 훈련하는 것도 다양한 Keras 워크플로

케라스는 이 모든 과정을 크게 세 가지 방향으로 제공한다.
사용자가...
1. 개별 단계(ex.훈련루프)와 단계에서 사용될 요소(ex.모델)까지 모두 직접 짤 수 있는 방향과
2. 개별 단계를 매서드로 호출하도록 API를 만들어 매서드 내 모델과 파라미터 등 결정하면 되는 방향
3. 위 두 가지를 혼용하는 방향
이렇게 워크플로를 유연하게 사용할 수 있는 이유는, 모든 워크플로는 keras.Model keras.Layer같은 Keras API를 기반하기 때문이다.

아래는 두 번째 방향에 해당하는 "표준 워크플로"를 소개하겠다. (pg.261)
(데이터는 단일레이블-다중분류모델인 MNIST 데이터셋을 사용함)

7-17 표준 워크플로

(설계 : compile(), 훈련 : fit(), 평가 : evaluate(), 예측 : predict())

데이터셋 가져오기(import)

 from tensorflow.keras.datasets import mnist

모델 정의하기

    def get_mnist_model():
     inputs = keras.Input(shape=(28*28,))
     features = layers.Dense(512, activation="relu")(inputs)
     features = layers.Dropout(0.5)(features)
     outputs = layers.Dense(10, activation="softmax")(features)
     model = keras.Model(inputs, outputs)
     return model

데이터 전처리 : train과 test 데이터 분리

(images, labels),(test_images, test_labels) = mnist.load_data()
images = images.reshape((60000, 28*28)).astype("float32") / 255
test_images = test_images.reshape((10000, 28*28)).astype("float32") / 255
train_images, val_images = images[10000:], images[:10000]
train_labels, val_labels = labels[10000:], labels[:10000]

모델 훈련, 평가하기

model = get_mnist_model()
model.compile(optimizer="rmsprop",
              loss="sparse_categorical_crossentropy",
              metrics=["accuracy"])
# 훈련루프              
model.fit(train_images,train_labels,
          epochs=3,
          validation_data=(val_images, val_labels))
#평가루프
test_metrics = model.evaluate(test_images,test_labels)
predictions = model.predict(test_images)

출처 : https://ml-ops.org/content/end-to-end-ml-workflow

Aloha oe AI

[NLP] 자연어처리와 친해지기 : 머신러닝과 딥러닝 모델은 코드적으로 어떻게 다를까? (feat. 네이버 영화 리뷰 데이터(nsmc) 감성 분석)

오늘의 학습 목표 :

비교 항목 :

사용한 데이터셋 :

사용한 모델 :

비교1. 데이터 전처리 및 준비

비교 2. EDA(탐색적 데이터 분석)

비교 3. 모델 설정 및 학습 (차이 발생 구역✨)

3.1. 머신러닝 모델: TF-IDF + Naive Bayes Classifier

3.2. 딥러닝 모델: LSTM 기반 분류기

비교 4. 성능 평가 과정

결론

꼬리생각

Q. 데이터양이 아주 많지는 않고, 각 셀별로 max_length가 짧으면 머신러닝이 성능이 더 좋게 나올 수 있을까?

A. (데이터 특성에 따라 다르지만 대체로) 그렇다.

[시스템디자인] 머신러닝 디자인 패턴의 안티패턴(Antipatterns)이란?

목차

1. 머신러닝 디자인 패턴의 안티패턴(Antipatterns)이란 무엇인가요?

2. 왜 머신러닝 안티패턴이 필요한가요?

3. 머신러닝 안티패턴 종류 4가지

☑️ SERVING 패턴의 안티패턴

☑️ TRAINING 패턴의 안티패턴

☑️ QA 패턴의 안티패턴

☑️ OPERATION 패턴의 안티패턴

[AI정보] UPENN에서 언어모델(Language Modeling)컨퍼런스를 주최한다? COLM 2024 (Google DeepMind, Allen Institute for AI)

Hello, COLM 2024

Who are They? COLM 2024 의장 소개

COLM 2024: 단순한 NLP를 넘어서는 새로운 시도

COLM 2024에서 기대할 수 있는 연구 주제

COLM 2024의 미래 전망

[함수정리] ML, DL, AI, 데이터분석 기초 : 데이터 전처리

데이터 전처리에서는 뭐를 해야하나?

목차

0. 들어가기

1. 데이터 분석하기 전에 "라이브러리"부터 불러오기!

2. 데이터 전처리에서 사용하는 함수

2.1. 결측치 처리

2.2. 이상치 처리

2.3. 데이터 정규화

2.4. 범주형 데이터 변환

2.5. 중복 데이터 제거

[시각화] matplotlib pyplot 만져보기 : (선행대수) 벡터, 그리드 생성, 축 설정, 축 라벨 추가

라이브러리 불러오기

pyplot의 subplots 시각화 함수로 "x,y축, 라벨, 범례, 그리드활성" 만들기

[AI정보] 중국계 인공지능 커뮤니티가 있다? Machine Heart(机器之心)

Machine Heart (机器之心)

중국 인공지능 커뮤니티(Machine Heart)는 어쩌다 찾은 거야?

처음 들어보는데? 커뮤니티 진짜 괜찮은 곳 맞아?

"나락으로 가는가? Reflection 70B 때문에 성능 조작 의혹 받는 Llama 3, 위기 직면" (링크)

[시각화] #01_세그멘테이션 함수 써보기 : 우주대스타 덕구를 진짜 우주로!

우주대스타 덕구를 진짜 우주로!

목차

1. 라이브러리 & 데이터 불러오기

❗배경이미지 `cv2.resize` 해야지 맨 마지막 이미지 합성 단계에서 오류 안 뜸

Solution : 우주 배경사진 사이즈 조정

2. 모델 및 세그멘테이션 함수 선택

3. 이미지 분할, 배열 값 확인

4. Color Map 조정 (BGR->RGB)

PreTEST : 원본이미지(img_show)와 마스크이미지(img_mask) 가중치 정해서 합쳐보기

5. 이미지 합치기 : 덕구를 우주로!

[번역] 전치 합성곱을 사용한 업샘플링(Up-sampling with Transposed Convolution)

Up-sampling with Transposed Convolution

목차

1. 업샘플링이 필요한 이유

2. 왜 전치 합성곱(Transposed Convolution)을 사용할까?

3. 합성곱 연산(Convolution Operation)

4. 역으로 가기(Going Backward)

5. 합성곱 행렬(Convolution Matrix)

6. 전치 합성곱 행렬(Transposed Convolution Matrix)

7. 요약

DeepLearning101_07_케라스완전정복_Code : 사용자 정의 '지표' 만들기

Recreating code 7-18 from book "Deep Learning with Python" by François Chollet

CODE 7-18 : Metric 클래스 상속하여 사용자 정의 지표 구하기

Import Tools

Define Functions

defining_model

defining_metrics

Let's See How it Works!

데이터 불러오기