sol’s blog
sol’s blog

Kaggle - Predict the Introvers from the Extrovers 시각화
streamlit 으로 설문 웹사이트를 만든다.
Kaggle - Predict the Introvers from the Extrovers
https://www.kaggle.com/datasets/rakeshkapilavai/extrovert-vs-introvert-behavior-data/data 설문조사 데이터를 기반으로 딥러닝 생성 모델을 통해 합성된 것(원본 설문을 학습한 딥러닝 생성모델이 “원본과 비슷하게 보이도록 원본 분포를 모사해” 새로 뽑아낸 합성 데이터introvert이면서 Post frequency가 6이상인 사람들은 drained after

IRR
LendingClub과 같은 P2P 대출 플랫폼에서는 다음과 같은 구조를 가짐
Lending Club 데이터 전처리 기록

Lending Club 데이터 분석 사례 참고
Lending Club 데이터를 가지고 모델링, 분석한 다른 프로젝트들의 진행사항을 참고하고 정리
Lending Club 데이터 분석: 데이터 개요, EDA, 전처리, 그리고 파생 변수 설계
optuna를 이용한 하이퍼파라미터 튜닝
optuna로 optimizer별 learning rate 탐색했지만 데이터 규모와 fold별 편차로 안정적 최적값을 찾지 못함.

데이터 분석 계획서 샘플
책 데이터 드리븐 리포트(이상석)에 나와있는 데이터 분석 계획서를 다음에도 쓰기 위해 기록

EDA & 데이터 정제
딥러닝 하이퍼파라미터 튜닝 실험안
bi-LSTM + Attention 구조를 사용하는 운전자 주의분산 감지 과제에 대해 성능 최적화와 과적합 방지를 목표로 한 하이퍼파라미터 튜닝 실험 설계

딥러닝에서 일반화 성능 검증
딥러닝에서는 일반적으로 Validation Loss 기준으로 Early Stopping/Best Model 저장을 수행이 과정에서 validation 데이터를 학습 흐름에 반복적으로 사용하기 때문에, 전통적인 완전히 미지의 holdout set 이라는 개념과는 다름

feature wise normalization와 주요 정규화 기법
LSTM은 내부적으로 sigmoid, tanh 같은 bounded([-1, 1] or [0, 1]) 활성화 함수를 사용→ 그래서 LSTM에서 입력을 [0, 1] 또는 [-1, 1] 범위로 스케일링하면 학습이 더 안정적일 수 있음

MAR, EAR, gaze yaw, pitch feature 스케일링 적용 여부 결정
Bi-LSTM 시계열 모델에서 MAR/EAR 스케일링 적용 여부 조사
LSTM 실험 모델 정리 및 최종 구조 결정 위한 비교 실험 + 오류 분석
Stacked LSTM, Bi-LSTM (전층/첫층/마지막층), Attention 모델 등 다양한 구조를 비교하여, 성능과 해석 가능성의 균형을 갖춘 최종 모델을 선정
Pump.fun 예측 기반 밈코인 투자 전략 수립
Stacked LSTM, Bi-LSTM 모델 실험
참고한 논문에서는 마지막 Stacked LSTM layer에만 Bidirectional LSTM을 적용한 거 같음일단 세가지 경우의 수로 나눠서 실험해봄
모델 실험을 위한 코드 템플릿 생성
다양한 모델 실험 케이스를 효율적으로 분업/관리할 수 있도록, 공통 구조의 .ipynb 코드 템플릿을 제작

SHAP(Shapley Additive exPlanations)
SHAP 값의 원리와 특징, 활용 시점, 기존 feature importance와의 차이점, 신뢰도 및 적용 가능 모델 범위에 대해 알아본다.
Bi-LSTM + Attention 모델로 변경 고민
영상에서 추출한 프레임들의 종횡비를 고려하지 않은 채 224 x 224 로 리사이즈하여 생겼던 왜곡을 다시 원상태로 돌리고, 모델을 다시 돌려봐야하는 단계에서 Bi-LSTM + Attention 모델로 변경하는 것이 어떨지에 대한 얘기가 회의 중에 나와서 관련 논문을 읽고 비교를 해본다. Detecting Driver Behavior Using Stacked LSTM Network With Attention Layer Bi-LSTM은 두 개의

오버피팅 방지를 위한 Regularization 기법 실험 계획

다익스트라, 벨만 포드 알고리즘
최단 거리 구하는 알고리즘
yaw, pitch 결측 프레임 수 확인 및 선형보간 기준 정하기
한 그룹(LSTM 1 input)에서 최대로 결측된 프레임 수는 9개이지만, 연속된 건 4개. → 9개 프레임이나 얼굴 탐지를 못 한 그룹은 라벨이 normal 이기도 하니까 드랍하고 나머지는 선형 보간

백준 멀티탭 스케줄링
그리디

코테 문제 해결 플로우
yaw, pitch 재추출 후 EDA
L2CS-Net모델로 시선의 수평각도, 수직각도를 추출한 후 운전자의 문자 행동을 구분할만한지 EDA
밈코인 성공 예측 분석1
→ 예측 확률 기반으로 3개 그룹으로 나눠서 접근성공 혼동 코인(FN) 과 실패 코인(TN) 만 모델을 돌리면 잘 예측할까?→ 구분을 거의 못 함.어떤 모델의 feature importances가 더 의미 있을까?각 거래 내역에서 거래를 한 지갑(사람)이 투자한 코인의 성공률을 계산하여 wallet_success_rate 라는 feature를 만들고, 각 코인 별로 갖고 있는 wallet_success_rate 값을 mean, std,
Ahmednull/L2CS-Net 모델 오류
Ahmednull/L2CS-Net 모델 분석 및 오류 해결
백준 테트로미노
완전 탐색

모델 고민(YOLO + CNN + LSTM)
데이터를 AI HUB, YawDD 로 확정 후 YOLO + CNN + LSTM 모델 구조로 고민
운전자 주의 분산 데이터 탐색
운전자 이상 행동 분류 프로젝트를 기획하면서 사용할 데이터들 서치 및 정리