التسلسل الهرمي مقابل المجموعات التجميعية

التجميع هو أسلوب تعلم آلي لتحليل البيانات وتقسيمها إلى مجموعات من البيانات المتشابهة. تُعرف هذه المجموعات أو مجموعات البيانات المماثلة باسم المجموعات. يبحث تحليل الكتلة في خوارزميات التجميع التي يمكنها تحديد الكتل تلقائيًا. التسلسل الهرمي والجزئي هما فئتان من خوارزميات التجميع. تقوم خوارزميات المجموعات الهرمية بتقسيم البيانات إلى تسلسل هرمي للمجموعات. تقسم الخوارزميات الجزئية مجموعة البيانات إلى أقسام منفصلة بشكل متبادل.

ما هو التسلسل الهرمي؟

تكرر خوارزميات المجموعات الهرمية دورة إما دمج مجموعات أصغر في مجموعات أكبر أو تقسيم مجموعات أكبر إلى مجموعات أصغر. وفي كلتا الحالتين ، فإنه ينتج تسلسل هرمي من مجموعات تسمى dendogram. تستخدم إستراتيجية التكتل التجميعي النهج التصاعدي المتمثل في دمج التجمعات في التجمعات الأكبر ، في حين تستخدم إستراتيجية التكتل التقسيمية المقاربة التفضيلية للتقسيم إلى التجمعات الأصغر. عادة ، يتم استخدام النهج الجشع في تحديد المجموعات الكبيرة / الأصغر المستخدمة للدمج / القسمة. تعد المسافة الإقليدية ومسافة مانهاتن وتشابه جيب التمام من أكثر مقاييس التشابه شيوعًا للبيانات الرقمية. بالنسبة للبيانات غير الرقمية ، يتم استخدام مقاييس مثل مسافة Hamming. من المهم ملاحظة أن الملاحظات الفعلية (المثيلات) ليست ضرورية للتسلسل الهرمي ، لأن مصفوفة المسافات هي وحدها الكافية. Dendogram هو تمثيل مرئي للمجموعات ، والذي يعرض التسلسل الهرمي بوضوح شديد. يمكن للمستخدم الحصول على مجموعات مختلفة اعتمادًا على المستوى الذي يتم عنده تقطيع dendogram.

ما هو التجميع الجزئي؟

تقوم خوارزميات التجميع الجزئية بإنشاء أقسام متعددة ثم تقييمها حسب بعض المعايير. ويشار إليها أيضًا بأنها غير هرمية حيث يتم وضع كل مثيل في واحدة من مجموعات k الحصرية بشكل متبادل. نظرًا لأن مجموعة واحدة فقط من الكتل هي ناتج خوارزمية التجميع الجزئي النموذجي ، يجب على المستخدم إدخال العدد المطلوب من الكتل (تسمى عادةً k). إحدى خوارزميات التجميع الجزئية الأكثر استخدامًا هي خوارزمية التجميع k-mean. مطلوب من المستخدم تقديم عدد الكتل (k) قبل البدء والخوارزمية تبدأ أولاً في المراكز (أو النقط الوسطى) لأقسام k. باختصار ، تقوم خوارزمية التجميع k-mean بتخصيص الأعضاء بناءً على المراكز الحالية ومراكز إعادة التقدير بناءً على الأعضاء الحاليين. يتم تكرار هاتين الخطوتين حتى يتم تحسين دالة موضوعية معينة للتشابه داخل الكتلة ووظيفة هدف التباين بين المجموعات. لذلك ، فإن التهيئة المعقولة للمراكز هي عامل مهم للغاية في الحصول على نتائج جيدة من خوارزميات التجميع الجزئية.

ما هو الفرق بين التسلسل الهرمي والتقسيم التجميعي؟

المجموعات الهرمية والتقسيمية لها اختلافات أساسية في وقت التشغيل ، والافتراضات ، ومعلمات الإدخال ، والمجموعات الناتجة. عادةً ما يكون التجميع الجزئي أسرع من التجميع الهرمي. لا يتطلب التجميع الهرمي سوى إجراء تشابه ، بينما يتطلب التجميع الجزئي افتراضات أقوى مثل عدد المجموعات والمراكز الأولية. لا يتطلب التجميع الهرمي أي معلمات إدخال ، بينما تتطلب خوارزميات التجميع الجزئية عدد الكتل لبدء التشغيل. تُرجع المجموعات الهرمية تقسيمًا أكثر فاعلية وذات مغزى من الكتل ، لكن التجميع الجزئي يؤدي إلى مجموعات k تمامًا. تعد خوارزميات التجميع الهرمي أكثر ملاءمة للبيانات الفئوية طالما يمكن تعريف مقياس التشابه وفقًا لذلك.