Hierarchical Clustering (การแบ่งกลุ่มลำเดียง)

การแบ่งกลุ่มลำเดียง (Hierarchical Clustering) เป็นเทคนิคในการทำ Cluster Analysis ที่สามารถแบ่งข้อมูลPg Slotเป็นกลุ่มหรือคลัสเตอร์แบบลำเดียง โดยการรวมหรือแบ่งกลุ่มตามความคล้ายคลึงกันของข้อมูล ข้อมูลที่ใกล้เคียงกันมีโอกาสที่จะถูกรวมเข้าด้วยกันเป็นกลุ่ม เราสามารถสร้างต้นไม้ที่แสดงความคล้ายคลึงของข้อมูลได้ ซึ่งต้นไม้นี้เรียกว่า “Dendrogram” (เดนโดแกรม).

ขั้นตอนในการทำ Hierarchical Clustering:

  1. การคำนวณความคล้ายคลึง:
    • ในขั้นแรกจะคำนวณความคล้ายคลึง (similarity) หรือความห่าง (distance) ระหว่างข้อมูลPg Slotทั้งหมด
    • มักใช้วิธีการคำนวณระยะห่างเช่น Euclidean distance, Manhattan distance, หรือ Correlation coefficient
  2. สร้าง Dendrogram:
    • ใช้ค่าความคล้ายคลึงที่ได้มาสร้าง Dendrogram ซึ่งเป็นแผนภาพต้นไม้ที่แสดงการแบ่งกลุ่มและความคล้ายคลึงของข้อมูลPg Slot
  3. การเลือกจำนวน Cluster:
    • จาก Dendrogram เราสามารถเลือกจำนวน Cluster ที่เหมาะสมPg Slotได้ โดยการทำการตัด (cutting) ต้นไม้ที่ระยะห่างในขั้นตอนที่แล้ว
  4. การแบ่งกลุ่ม:
    • หลังจากที่เลือกจำนวน Cluster แล้ว เราสามารถแบ่งข้อมูลเป็นกลุ่มตามPg Slotที่เราได้ระบุ

ประเภทของ Hierarchical Clustering:

  1. Agglomerative Hierarchical Clustering:
    • เริ่มต้นด้วยการทำให้แต่ละข้อมูลPg Slotเป็น Cluster ตัวเอง แล้วรวม Cluster ที่มีความคล้ายคลึงมากที่สุดเข้าด้วยกันไปเรื่อย ๆ จนกระทั่งเหลือเพียง Cluster เดียว
  2. Divisive Hierarchical Clustering:
    • เริ่มต้นด้วยการทำให้ทุกข้อมูลPg Slotอยู่ใน Cluster เดียวกัน แล้วแบ่ง Cluster ออกเป็น Cluster ย่อยๆ ที่มีความคล้ายคลึงน้อยที่สุด

การใช้ Dendrogram:

Dendrogram คือกราฟที่ใช้แสดงความคล้ายคลึงของข้อมูลและวิธีการแบ่งกลุ่ม ทางล่างของ Dendrogram จะมีข้อมูลPg Slotแต่ละตัวอย่าง และเราสามารถวิเคราะห์ว่าข้อมูลไหนอยู่ในกลุ่มเดียวกัน

การเลือกจำนวน Cluster สามารถทำได้โดยการหาจุดที่ตัดกับเส้นตัดใน Dendrogram และจากนั้นกำหนดจำนวน Cluster ตามที่ต้องการ

Hierarchical Clustering มักนำไปใช้ในการจัดหมวดหมู่ข้อมูลที่ไม่มีการจำหน่ายชัดเจน หรือเมื่อเราต้องการดูว่าข้อมูลPg Slotมีความคล้ายคลึงกันอย่างไร และหากมีข้อมูลที่แบ่งกลุ่มแล้วเราสามารถนำไปวิเคราะห์หรือทำนายต่อไปได้

Partitioning Clustering (การแบ่งกลุ่มแบบแบ่งส่วน)

Jan 14, 2024

Partitioning Clustering (การแบ่งกลุ่มแบบแบ่งส่วน) เป็นเทคนิคการแบ่งกลุ่มPg Slotที่นิยมในการทำ Cluster Analysis ซึ่งมีลักษณะที่ข้อมูลจะถูกแบ่งออกเป็นกลุ่มหลาย ๆ กลุ่มที่ไม่ซ้ำกัน ซึ่ง K-Means Clustering เป็นเทคนิคที่แพร่หลายที่ใช้ใน Partitioning Clustering. ขั้นตอนในการทำ K-Means Clustering: กำหนดจำนวน Cluster (K): กำหนดจำนวนPg Slot Cluster ที่ต้องการในข้อมูล เลือกจุดเริ่มต้น (Initial Centroids): เลือกจุดเริ่มต้นPg Slot (centroids) สำหรับแต่ละ Cluster ที่ต้องการแบ่ง คำนวณระยะห่าง: คำนวณระยะห่างระหว่างทุกจุดข้อมูลPg Slotกับ centroids ทั้งหมด กำหนด Cluster: นำแต่ละจุดข้อมูลPg Slotมากำหนดให้อยู่ใน Cluster ที่มี centroid ที่ใกล้ที่สุด คำนวณ Centroids ใหม่: คำนวณ centroids ใหม่โดยใช้ข้อมูลPg Slotที่อยู่ใน...

Leave a comment