منوی دسته بندی

پروژه ها

📊 پروژه‌ی پیش‌پردازش داده‌های فروش (Sales Data Preprocessing)

در این پروژه، با تکیه بر علم داده و پاک‌سازی داده‌ها، یک مجموعه داده‌ی فروش را آماده‌ی تحلیل‌های عمیق‌تر می‌کنیم. شاید به نظر ساده بیاد، اما حقیقت اینه که بیش از ۷۰٪ زمان پروژه‌های تحلیل داده صرف پاک‌سازی و آماده‌سازی داده‌ها می‌شه — و این پروژه نشون می‌ده چرا این مرحله انقدر حیاتی‌ـه.

🔍 هدف پروژه:

ساخت یک دیتاست تمیز، دقیق و قابل اعتماد برای استفاده در تحلیل‌های آماری یا مدل‌های یادگیری ماشین.


🛠 مراحل انجام‌شده:

  1. حذف رکوردهای بدون شناسه مشتری (Customer ID)
    حذف فاکتورهایی که شناسه‌ی مشتری ندارند، برای جلوگیری از تحلیل‌های ناقص.
  2. حذف رکوردهای تکراری
    حذف ردیف‌هایی که تمام مقادیرشان کاملاً مشابه بوده تا از تحریف در نتایج جلوگیری شود.
  3. حذف قیمت‌های نامعتبر
    فیلتر کردن ردیف‌هایی که قیمت واحد آن‌ها صفر یا منفی است، چون نشان‌دهنده‌ی خطا یا سفارشات ناصحیح هستند.
  4. محاسبه درصد سفارشات لغو شده
    برای درک وضعیت کلی و نرخ لغو سفارشات، درصد سفارشات برگشتی محاسبه شده است.
  5. شناسایی مشتریان با بیشترین لغو سفارش
    پنج مشتری با بیشترین میزان لغو سفارش شناسایی شده‌اند که در آینده می‌تواند برای تحلیل رفتار مشتری یا بهینه‌سازی تجربه خرید استفاده شود.
  6. حذف کامل سفارشات لغو شده از دیتاست
    برای آماده‌سازی داده‌ی نهایی، تمام سفارشات لغو شده از دیتاست حذف شده‌اند.
  7. ذخیره دیتای پاک‌سازی‌شده
    دیتاست نهایی در قالب فایل CSV ذخیره شده تا در مراحل بعدی مثل تحلیل داده یا مدلسازی به کار گرفته شود.

🧰 ابزارهای استفاده‌شده:

  • Pandas: کتابخانه‌ای قدرتمند در پایتون برای پردازش و پاک‌سازی داده‌ها.

🎯 چرا این پروژه مهمه؟

قبل از هر مدل‌سازی یا تصمیم‌گیری، کیفیت داده‌ها حرف اول رو می‌زنه. اگر داده‌هات دقیق و ساختارمند نباشن، حتی پیشرفته‌ترین مدل‌ها هم به خطا می‌افتن. این پروژه با تمرکز روی بهبود کیفیت داده، مسیر موفقیت در مراحل بعدی تحلیل را هموار کرده.


💡 این پروژه برای چه کسی مفیده؟

اگر علاقه‌مند به شروع یادگیری تحلیل داده (Data Analysis) یا یادگیری ماشین (Machine Learning) هستی، این پروژه مثال خوبی از دقت و نظم در مراحل ابتدایی کاره. مخصوصاً برای افرادی که می‌خوان بدون مدل‌سازی پیچیده، روی مهارت‌های پایه‌ای در تمیز کردن و آماده‌سازی داده‌ها تمرکز کنن.