본문 바로가기
  • 데이터(DATA) 속으로 다이빙

전체 글14

머신러닝을 활용한 광고 클릭률 예측(CTR Prediction) 이번 프로젝트에서는 머신러닝을 활용하여온라인 광고의 클릭률(CTR)을 예측하는 모델을 만들어 볼 것이다. 1. CTR이란?CTR(클릭률)= 클릭 수/ 광고 노출 수 x 100CTR이 높을수록 광고가 효과적이라는 의미이다.광고 최적화를 위해 클릭 가능성이 높은 유저를 예측하는 것이 중요CTR 예측을 통해 해결할 수 있는 문제광고비 절감 (CTR이 낮은 광고를 제거하여 예산을 절약)맞춤형 광고 (클릭 가능성이 높은 사용자에게 광고를 제공)광고 성과 개선 ( A/B 테스트를 활용) 2. 데이터 준비 및 전처리온라인 광고 클릭 데이터 예제user_id: 사용자 IDad_id: 광고 IDdevice_type: 사용 기기(PC, Mobile 등)time_of_day: 광고 노출 시간clicked: 클릭 여부 (1:.. 2025. 3. 16.
머신러닝-고객 세분화 및 구매 예측 이번 실습에서는 가상의 "소매 고객 데이터(Retail Customer Data)를 사용할 것이다.준비해야 할 데이터는 총 5가지이다.Customer_ID: 고객 IDAge: 고객 나이Annual_Income: 연간 소득Spending_Score: 소비 성향 점수(0-100)Purchase_History: 과거 구매 횟수1. 데이터 준비 및 전처리1) 데이터 준비import pandas as pd# 가상의 고객 데이터 생성data={'Customer_ID': range(1, 201),'Age': np.random.randint(18, 65, 200), 'Annual_Income': np.random.randint(15000, 100000, 200), 'Spending_Score': np.random.ra.. 2025. 3. 12.
머신러닝을 활용한 네트워크 보안 & 해킹 탐지 네트워크 보안에서 이상 탐지(Anomaly Detection)는 정상적인 트래픽과비정상적인 트래칙(해킹, DDos 공격 등)을 구별하는 과정이다.머신러닝을 활용하면 이전에는 없던 새로운 해킹 패턴도 탐지할 수 있다.이번 실습에서는 NSL-KDD 데이터셋을 사용하여 해킹 탐지 모델을 구축해 본다.1. 네트워크 보안 데이터셋 소개(NSL-KDD)NSL-KDD 데이터셋이란,네트워크 보안 연구에서 가장 많이 사용되는 침입 탐지 데이터셋 중 하나로,정상 트래픽과 다양한 공격 유형(DOS, Probe, R2L, U2R)이 포함되어 있다.NSL-KDD 데이터셋 다운로드 1) DOS: 서버 과부하 유발 공격2) Probe: 시스템 취약점 스캔3) R2L: 원격에서 시스템 접근 권한 탈취4) U2R: 일반 사용자가 관리.. 2025. 3. 12.
머신러닝을 이용한 주가 예측(Stock Price Prediction) 주식 시장은 수많은 요소에 의해 영향을 받으며 예측이 어렵다.하지만 머신러닝을 활용하면 과거 데이터를 분석하여주가 변동 패턴을 학습하고, 미래 가격을 예측할 수 있다. 이번 실습에서는 Yahoo Finance API를 이용해 주가 데이터를 가져오고, 머신러닝 모델을 사용하여 주가를 예측해 본다. 1. 주가 데이터 수집 (Yahoo Finance API 활용)Python에서 yfinance 라이브러리를 사용하여 실시간 주가 데이터를 가져올 수 있다.import yfinance as yf# 삼성전자 주가 데이터 가져오기stock=yf.Ticker('005930.KQ')df=stock.history(period='5y')print(df.head()) 2. 데이터 전처리데이터 결측치를 확인하고 처리할 것이다.#.. 2025. 3. 9.
머신러닝 프로젝트 실전 예제 머신러닝을 배우는 가장 좋은 방법은 실제 프로젝트를 경험해 보는 것이다.이번 글에서는 Kaggle에서 가장 유명한 Titanic 생존자 예측 문제를 다룬다.데이터 전처리부터 특성 엔지니어링, 모델링, 평가까지 전 과정을 python 코드로 직접 구현해 보자. 1. Titanic 데이터셋 공개Titanic 데이터셋이란1912년 타이타닉호의 실제 승객 데이터를 기반으로,각 승객의 정보를 통해 생존여부를 예측하는 머신러닝 입문자용 문제이다.1) Survived : 생존 여부(0: 사망, 1: 생존)2) Pclass : 객실 등급(1등급, 2등급, 3등급)3) Sex : 성별(male/female)4) Age : 나이5) Fare : 탑승 요금6) SibSp : 동승한 형제/자매의 수7) Parch : 동승한 .. 2025. 2. 25.
머신러닝 모델 성능 향상을 위한 고급 기법 머신러닝 모델을 만들었지만 성능이 기대만큼 나오지 않는 경우가 많다.이때 단순히 더 복잡한 모델을 사용하는 것보다, 데이터 처리 및 학습 기법을 최적화하는 것이 중요하다. 이번 글에서는 머신러닝 모델의 성능을 향상하는 주요 고급 기법을 소개하고,Python 코드와 함께 실습해 본다. 1. 데이터 측면에서 성능 향상 방법1) 더 많은 데이터 확보 (Data Augmentation & Data Collection)데이터가 많을수록 모델이 다양한 패턴을 학습할 수 있어 성능이 향상된다.특히 딥러닝에서는 데이터 증강이 필수적!from keras.preprocessing.image import ImageDataGenerator# 이미지 데이터 증강 예제datagen=ImageGenerator(rotation_ra.. 2025. 2. 21.