데이터
https://www.kaggle.com/datasets/rakeshkapilavai/extrovert-vs-introvert-behavior-data/data 설문조사 데이터를 기반으로 딥러닝 생성 모델을 통해 합성된 것(원본 설문을 학습한 딥러닝 생성모델이 “원본과 비슷하게 보이도록 원본 분포를 모사해” 새로 뽑아낸 합성 데이터
- 설문조사 데이터는 2,900행 정도
- 대회에서 제공된 합성된 데이터 train shape은 (18524, 9)
- test shape 6,175행
1.time_spent_alone | 하루 중 혼자 보내는 시간(시간 단위) - 0 ~ 11 |
2. stage_fear | 무대 공포증 존재 여부 - yes / no |
3. social_event_attendance | 사회적 모임/행사 참석 빈도 - 0 ~ 10 |
4. going_outside | 외출 빈도 - 0 ~ 7 |
5. drained_after_socializing | 사교 활동 후 피로감 여주 - yes / no |
6. friends_circle_size | 친구 범위 규모(친구 숫자) - 0 ~ 15 |
7. post_frequency | SNS 게시물 포스팅 빈도 - 0 ~ 10 |
8. personality | 종속변수 - extrovert / introvert |
9. id | 각 행의 식별자 |
간단 EDA
종속변수(personality) 구성비율
Time Spent Alone
Drained after socializing
Friends circle size
Post frequency
introvert이면서 Post frequency가 6이상인 사람들은 drained after socializing
과 social fear
이 No 인 것으로 나타마
Social event attendance
Going outside
stage fear
간단 모델링
NaN 값 허용하는 catboost로 돌려봤을 때..
model = CatBoostClassifier(
loss_function="Logloss",
eval_metric="Accuracy",
iterations=2000,
learning_rate=0.05,
depth=6,
l2_leaf_reg=3.0,
random_seed=42,
auto_class_weights="Balanced", # 불균형 자동 가중
verbose=200
)
- 캐글 제출 결과