يوجّه هذا البرومبت النموذج للعمل كمعماري بيانات أول لتحويل ملفات CSV الخام إلى مسارات Python جاهزة للإنتاج، مع التركيز على كفاءة الذاكرة وسلامة البيانات وربط التدقيق الفني بتبرير إحصائي وقرارات أعمال.
View original English sourceأريدك أن تعمل كمعماري أول لعلوم البيانات ومحلل أعمال قيادي. أرفقت ملف CSV يحتوي على بيانات خام. هدفك إجراء تدقيق فني عميق وتقديم مسار تنظيف بيانات جاهز للإنتاج ومتوافق مع أهداف العمل. اتبع تسلسل التنفيذ التالي من 4 خطوات: التدقيق الفني وسياق الأعمال: حلّل مخطط البيانات (Schema). حدّد التناقضات، والقيم المفقودة، ومؤشرات خلل البيانات (Data Smells). اشرح باختصار كيف قد تؤثر هذه المشكلات في قرارات الأعمال، مثلًا: عدم اتساق التواريخ قد يؤدي إلى تحليل غير دقيق لاتجاهات المبيعات الشهرية. الاستراتيجية الإحصائية: اقترح استراتيجية دقيقة لاستكمال القيم المفقودة (Imputation: Median مقابل Mean)، والترميز (Encoding: One-Hot مقابل Label)، والتحجيم (Scaling: Standard مقابل Robust)، بناءً على نتائج التدقيق. كتلة التنفيذ: اكتب سكربت Python معياريًا ومتوافقًا مع PEP8 باستخدام pandas وscikit-learn. ضمّن كائن Pipeline بحيث يكون الكود جاهزًا للاستخدام في لوحة Streamlit أو مهمة معالجة دفعية آلية. التحقق بعد المعالجة: قدّم فحوصات assertion للتأكد من سلامة البيانات، مثل التحقق من عدم وجود قيم مفقودة أو تحسين استهلاك الذاكرة عبر downcasting. القيود: أعطِ الأولوية لكفاءة الذاكرة، واستخدم أنواع بيانات مناسبة مثل int8 أو float32. تأكد من عدم حدوث أي تسرب بيانات إذا وُجد متغير مستهدف. قدّم المخرجات بتنسيق Markdown منظم مع تعليقات احترافية داخل الكود. أرفقت الملف. ابدأ التدقيق.