أوضح تصور البيانات: ما هو ولماذا يهم

اجتذب كل الضجيج في هذه الأيام في علوم البيانات ، لكنني أزعم أنهما ثانويان إلى تصنيف أكثر أهمية-وغالبًا ما يتم تحديده-.
عند التعامل مع البيانات ، هناك خطوتان أساسيتان:
- معالجة وتحليل البيانات لاستخراج رؤى ذات معنى.
- نقل هذه الأفكار للآخرين.
النقطة الثانية حاسمة وغالبًا ما يتم تجاهلها. الخوارزمية الأكثر تقدماً في العالم أو البصيرة المفيدة غير مجدية إذا لم يتمكن أحد من فهمها. بصفتك عالم بيانات ، يجب أن تتعلم نقل رؤيتك للآخرين. هناك أكثر من سبب واحد لذلك ، مع وجود ما هو واضح أنه إذا فهم الأشخاص المناسبين للبيانات ، فإن العالم ككل سيستفيد. ومع ذلك ، هناك سبب آخر مهم بنفس القدر: غالبًا ما يكون في وصف النتائج التي توصلنا إليها للآخرين أن نكتشف الأخطاء ، أو معرفة أكثر عمقًا ، أو مجالات أخرى للاستكشاف.
في هذه المقالة ، سنقوم بفحص أداة قوية وفعالة يمكن أن تساعد في تحقيق الخطوة الثانية أعلاه: تصور البيانات. هذا هو الأول في سلسلة من المقالات التي ستأخذ المبتدئين المطلقين في عمق عالم تصور البيانات. هذه المقالة الأولى عامة وخفيفة ، مقصودة كمقدمة إلى الحقل ككل. في المقالات اللاحقة ، سأدخل في الجوانب الفنية ، في النهاية من خلال تعليمك كيفية بناء تصورات البيانات الخاصة بك.
مع هذه المعرفة ، ستكون مسلحًا لمعالجة بياناتك بطرق جديدة ومثيرة.
“أكبر قيمة للصورة هي عندما يجبرنا على ملاحظة ما توقعنا رؤيته أبدًا.” – جون توكي
ما الذي يعتبر تصور بيانات؟
ينظر العديد من الأشخاص إلى تصور البيانات من خلال عدسة مقيدة ، وتصنيف الرسوم البيانية القياسية فقط ، مثل المخططات الشريطية ، ومخططات الخط ، وما شابه ذلك ، كصورات بيانات حقيقية. تم النظر إليه من هذا المنظور ، لم يتحقق تصور البيانات حتى منتصف القرن الثامن عشر. (سنرى بعض الأمثلة أدناه.)
ومع ذلك ، سنفعل بشكل جيد لتوسيع عقولنا. التحولات المرئية للبيانات لا تقتصر بأي حال من الأحوال على أفكارنا التقليدية. لقد كانوا موجودين منذ آلاف السنين. على سبيل المثال ، هنا هو Imago Mundi [1]، أقدم خريطة معروفة في العالم ، تم اكتشافها باعتبارها بقايا مدينة بابل القديمة:
تضع هذه الخريطة بابل في المركز وكان من المحتمل أن تكون أداة مفيدة للغاية لتصور ما نسميه الآن البيانات الجغرافية المكانية رسميًا. إنها واحدة من أقدم تصورات البيانات في العالم.
هناك عدد كبير من الشخصيات والصور المماثلة من مختلف الحضارات القديمة – اللوحات الكافحة ، التقويمات ، المنحوتات الحجرية ، وحتى الهيروغليفية المصرية – هذه كلها تمثيلات بصرية فعالة للبيانات التي كان من الصعب فهمها في شكلها الأولي. إن عرض هذه الأمثلة كتصورات البيانات يقودنا إلى مبدأ مهم:
في جوهرها ، فإن تصور البيانات ليس أكثر من أخذ بعض البيانات – سواء كان ذلك رقميًا أو نصيًا أو غير ذلك – وتطبيق تحول لتمثيله بصريًا.
يؤدي هذا المبدأ التأسيسي إلى العديد من الموضوعات ذات الصلة التي تنطوي بشكل أساسي على الأساليب الأكثر فعالية لإجراء هذه التحولات ، حيث فعال يترجم بشكل فضفاض إلى “صادقة وسهلة الفهم وغنية بالمعلومات”.
أمثلة مبكرة لتصورات البيانات
الآن بعد أن وسعنا وجهات نظرنا فيما يتعلق بما يشكل تصورًا للبيانات ، دعونا نلقي نظرة على بعض الأمثلة الحديثة. يوجد أدناه مخطط من 1644 تم تطويره بواسطة Michael Florent Van Langren [2]. إنه أحد أقدم التمثيل الرسومي لما نعتبره بيانات إحصائية تقليدية ، ويصور تقديرات الفرق في خط الطول بين روما وتوليدو.

دعونا نفكر في مثال أكثر تورطًا بعد ذلك – وهو ما يسلط الضوء مباشرة على اقتباس Tukey أعلاه.
فيما يلي خريطة منطقة سوهو في لندن في عام 1854 [3]. تم تصميمه بواسطة John Snow من أجل تحديد ما إذا كانت هناك أي أنماط في تفشي الكوليرا الذي كان يضعف المدينة في ذلك الوقت:

بالنظر إلى مركز الخريطة ، يمكننا أن نرى عددًا كبيرًا من الوفيات القريبة من مضخة المياه في شارع Broad Street. قرر التحقيق أن هذه المضخة ملوثة وكان سببًا رئيسيًا لانتشار المرض.
يبرز هذا المثال بالضبط مبدأ جون توكي لاحظنا أعلاه: أحد أفضل استخدامات تصور البيانات هو رؤية رؤى يصعب العثور عليها بسرعة في النموذج الأولي للبيانات.
الدقة والمرونة
تصور البيانات هو موضوع واسع وعميق يمكن التعامل معه بعدة طرق. ومع ذلك ، هناك مبدأان يجب أن تضعه في الاعتبار بغض النظر عن الشكل المحدد لتصور البيانات الذي تشارك فيه: دقة و المرونة.
لا يحاول تصور البيانات الجيد إنجاز مهام غير محددة ، مثل عرض جوهر ل أو تلخيص كل شيء مهم حول مجموعة البيانات. مثل هذه البيانات ذاتية ومن المستحيل تحقيقها بشكل أساسي.
بدلاً من ذلك ، يبرز تصور البيانات الجيد جانبًا محددًا ومحددًا جيدًا للبيانات ذات الصلة بطريقة تجعل من السهل فهمها للمستخدم. يجب عليك دائمًا التعبير عن ما تريد التعبير عنه حول بياناتك قبل البدء في تصميم التصور.
لاستيعاب هذا المبدأ ، من المفيد أن نتذكر الغرض من تصور البيانات هو البدء بـ: لعرض رؤى من مجموعة بيانات بطريقة واضحة ومفيدة. نريد أن نجعل البيانات أسهل في الفهم. أن تكون دقيقًا يضمن تحقيق هذا الهدف. قد ينتهي التصور الذي يحاول القيام بالكثير من إرباك المشاهد أكثر. من الأفضل بكثير إنتاج تصور يغطي بيانات أقل بطريقة أوضح. الجودة أكثر أهمية من الكمية.
ألقِ نظرة على جدول البيانات أدناه ، والذي يحتوي على معلومات حول الرواتب من مدن مختلفة في جميع أنحاء الولايات المتحدة.
اسم | مدينة | دخل | إشغال |
---|---|---|---|
سارة ميتشل | دنفر ، شارك | 72،500 دولار | مدير التسويق |
جمال رودريغيز | هيوستن ، تكساس | 58300 دولار | كهربائي |
بريا ديساي | سياتل ، واشنطن | 91200 دولار | مهندس البرمجيات |
توماس نغوين | شيكاغو ، إلينوي | 64،800 دولار | ممرضة |
أي مما يلي هو خيار التصور الأفضل للبيانات أعلاه؟
- إن التصور الذي يحاول تبسيط المعلومات في جدول البيانات باستخدام مخطط شريط يحتوي على أسماء على محور واحد ورواتب على المحور الآخر ، يستخدم اللون للتمييز بين المدن ، ويستخدم نسيجًا على الأشرطة (الخطوط المتقطعة ، الخطوط القطرية ، إلخ) للتمييز بين المهن.
- نفس التصور على النحو الوارد أعلاه ، ولكن هذه المرة باستثناء التخصصات. بمعنى آخر ، مخطط شريط من الأسماء والرواتب التي تلون القضبان بناءً على الموقع.
من المغري اختيار الأول ، ولكن الحقيقة هي أنها تحاول أن تفعل الكثير. من الأفضل عرض معلومات محدودة مستهدفة من إرباك جمهورك.
بالإضافة إلى كونها دقيقة ، فإن الحفاظ على المرونة أمر مهم أيضًا. لا يوجد شيء مثل تصور البيانات المثالي. هناك دائمًا مجال للتحسين ، وتصبح تصورات البيانات بشكل عام أفضل مع كل مراجعة. بالطبع ، في مرحلة ما ، يجب مشاركة تصور البيانات مع الآخرين وأن يخدم غرضه.
هذا يؤدي إلى مأزق – كم هو مراجعة كافية؟ لا توجد إجابة نهائية على هذا السؤال. يجب إجراء عملية مراجعة التصور بعناية. من المحتمل أن يؤدي طلب الكثير من الناس للحصول على المشورة إلى مجموعة من الآراء نصف المخبوزة. من ناحية أخرى ، من المرجح أن يؤدي نشر المسودة الأولى لتصور – أي ، وليس مراجعةها على الإطلاق – إلى نتيجة Subpar.
على الرغم من عدم وجود حل مثالي ، إلا أن هناك بعض الإرشادات التي يمكنك متابعتها:
- حدد 2-3 أشخاصًا لإعطائك ملاحظات على التصور الخاص بك.
- حاول التأكد من أن قائمة الأشخاص الخاصة بك تشمل ما يلي:
- المراجع الذي يتقن تصورات البيانات
- المراجع الذي لديه فهم قوي للبيانات التي يتم استخدامها لتطوير التصور (على سبيل المثال ، عالم سياسي لبيانات الانتخابات)
- مراجع هو جزء من الجمهور المقصود للتصور
- اجتاح 2-3 جولات من التعليقات والمراجعة مع هذه القائمة نفسها من الناس. هذا سيضمن أن التحسينات على التصور مستمر ومنطقي.
الأفكار النهائية وتتطلع إلى الأمام
من نواح كثيرة ، فإن تصور البيانات يشبه الكتابة. حتى المؤلفين الأكثر غزارة والموهبة لديهم محررين ، وتمر كتبهم بمراجعة واسعة قبل الموافقة على النشر. لماذا؟ لسبب بسيط هو أن الكتابة الجيدة تعتمد إلى حد كبير على الجمهور ، وتضمن المراجعة المنسقة بعناية أفضل تجربة للقراء في نهاية المطاف. تنطبق نفس الفكرة على تصور البيانات.
من خلال اتباع هذه الإرشادات ، يمكنك التأكد من تطوير تصور قوي للبيانات يستند إلى أفضل الممارسات ، ويعرض البيانات المطروحة بشكل صحيح ، وهو أمر مفهوم للجمهور المقصود.
إنها مفتاح التصور الفعال للبيانات ، وأسس تقنيات التصور المتقدمة التي سيتم مناقشتها في المقالات المستقبلية. حتى ذلك الحين.
مراجع
[1] https://commons.wikimedia.org/wiki/file:the_babylonian_map_of_the_world،_from_sippar،_mesopotamia..jpg
[2] العرض المرئي للمعلومات الكمية، إدوارد توفت
[3] https://picryl.com/media/snow-cholera-map-1-cbadea