ผู้ใช้:Motarkratom/Silhouette (clustering)

Silhouette หมายถึงวิธีการตีความและการตรวจสอบความสอดคล้องภายใน กลุ่มข้อมูล (cluster) เทคนิคนี้แสดงภาพกราฟิก (ที่รวบรัด กระชับ) ว่าแต่ละวัตถุได้รับการจำแนก แยกแยะ/จัดประเภทได้ดีเพียงใด [1]

ค่า Silhouette เป็นตัววัดความคล้ายคลึงของวัตถุ (object) กับคลัสเตอร์ของตัวเอง (ที่เกาะกลุ่มกัน) เมื่อเทียบกับคลัสเตอร์อื่นๆ (ที่แยกออกจากกัน) ค่า Silhouette มีช่วงตั้งแต่ − 1 ถึง +1 โดยที่ค่าสูง (high value) แสดงว่าวัตถุนั้นถูกจับคู่กับคลัสเตอร์ของตัวเองได้อย่างดี และจับคู่ได้ไม่ดีกับคลัสเตอร์ที่อยู่ใกล้เคียง ( neighboring clusters) ถ้าวัตถุส่วนใหญ่มีค่า Silhouette สูง แล้ว การกำหนดค่าการทำคลัสเตอร์ก็มีความเหมาะสม หากหลายจุดมีค่า Silhouette ที่ต่ำหรือมีค่าเป็นลบ แล้ว การกำหนดค่าการทำคลัสเตอร์ดังกล่าวอาจมีคลัสเตอร์จำนวนมากเกินไปหรือน้อยเกินไป

Silhouetteสามารถคำนวณได้ด้วยการวัด ระยะทาง เช่น ระยะทางแบบยุคลิด หรือ ระยะทางแมนแบบฮัตตัน

บทนิยาม แก้

 
แผนภูมิแสดงค่าของ Silhouette ของสัตว์สามประเภทจากชุดข้อมูลของสวนสัตว์ที่จัดทำด้วย Orange data mining ด้านล่างของแผนภูมิแสดงค่า (แต้ม) Silhouette ที่ระบุว่าปลาโลมาและปลา porpoise อยู่นอกกลุ่มของสัตว์เลี้ยงลูกด้วยนม

สมมติว่า ข้อมูลถูกจัดกลุ่มโดยใช้เทคนิคใดเทคนิคหนึ่ง เช่น k-mean ซึ่งแบ่งชุดข้อมูลดังกล่าวออกเป็น   กลุ่ม

สำหรับ จุดข้อมูล   ใดๆ ในคลัสเตอร์   ( ในทางคณิตศาสตร์เขียนแทนด้วย สัญลักษณ์   ), กำหนดให้

 

เป็นระยะห่างเฉลี่ยระหว่าง จุดข้อมูล   และจุดข้อมูลอื่นๆ ทั้งหมดในคลัสเตอร์เดียวกัน โดยที่   คือจำนวนแต้ม (ค่า Silhouette) ที่จุดข้อมูลเป็นส่วนหนึ่งของคลัสเตอร์  , และ   คือระยะห่างระหว่างจุดข้อมูล   และ   ในคลัสเตอร์   (ทั้งนี้ เราหารด้วย   เพราะเราไม่นำระยะทางของ   เข้ารวมผลรวมดังกล่าว เนื่องจาก   เป็นระยะทางระหว่างจากจุด   และ   ) เราสามารถตีความ   ได้ในลักษณะที่เป็นตัววัดซึ่งบ่งบอกว่าการกำหนด   ไปให้กับคลัสเตอร์ได้ดีเพียงใด (ยิ่ง   มีค่าน้อยแสดงว่าการกำหนดดังกล่าวจะยิ่งดี)

จากนั้น เรากำหนดให้ ค่าเฉลี่ยความต่าง (mean dissimilarity) ของจุด   ไปยังบางคลัสเตอร์   เป็นค่าเฉลี่ยของระยะทางจาก   ไปยังทุกจุดใน   (เมื่อ   )

สำหรับแต่ละจุดข้อมูล      เรากำหนดให้

 

เป็นค่าระยะทางเฉลี่ยที่เล็กที่สุด (   ในสูตรของ   หมายถึง minimum) ​​ของ   ไปยังทุกๆ จุดในคลัสเตอร์อื่นๆ ซึ่ง   ไม่ได้เป็นสมาชิกอยู่ในคลัสเตอร์ นั่น ทั้งนี้ เราจะเรียก คลัสเตอร์ที่มีค่าเฉลี่ยความต่างน้อยที่สุด (smallest mean dissimilarity) ว่า "neighboring cluster" ของ   เพราะเป็นคลัสเตอร์ที่เหมาะสมที่สุดที่อยู่ถัดไปสำหรับจุด  

ต่อไป เรากำหนดค่า Silhouette ของจุดข้อมูล   ให้อยู่ในรูปของ

 , เมื่อ  

และ

 , เมื่อ  

ซึ่งสามารถเขียนใหม่ให้อยู่ในรูปของ

 

ซึ่งจากการกำหนดข้างต้น จะเห็นได้ชัดว่า

 

ทั้งนี้ สังเกตได้ว่า ค่าของ   ไม่ได้กำหนดไว้อย่างชัดเจนสำหรับคลัสเตอร์ที่มีขนาดเท่ากับ 1 ซึ่งในกรณีนี้ เราให้   โดยถือเป็นการเลือกกลางๆ ในแง่ที่ว่าค่าดังกล่าวอยู่ที่จุดกึ่งกลางของ -1 และ 1 ซึ่งจริงๆ เราสามารถเลือกเป็นค่าใดก็ได้ [1]

สำหรับ   ให้ใกล้เคียงกับ 1 ซึ่งเราต้องการให้   น้อยกว่า   มากๆ (   ) เนื่องจาก   เป็นตัววัดความไม่เหมือนกันของ   ที่อยู่ในคลัสเตอร์ของตัวเอง ซึ่งค่า   น้อยๆ หมายความว่าเข้ากันได้ดี นอกจากนี้ ค่าของ   ซึ่งมีค่ามากๆ หมายความว่า   เข้ากันไม่ได้กับคลัสเตอร์ที่อยู่ใกล้เคียง ดังนั้น ค่า   ที่ใกล้ๆ กับ 1 หมายความว่า ข้อมูลดังกล่าวมีการจัดกลุ่มอย่างเหมาะสม ด้วยหลักการเดียวกัน ถ้า   ใกล้เคียงกับ -1 แล้ว เราจะเห็นว่า   จะเหมาะสมกว่าหากจัดกลุ่มในคลัสเตอร์ใกล้เคียง หากค่าของ   ใกล้ๆ กับศูนย์ หมายความว่า จุดข้อมูลนั้นอยู่บนเส้นขอบของสองคลัสเตอร์ (natural clusters)

ความหมายของ   สำหรับทุกจุดของคลัสเตอร์คือการวัดว่าจุดทั้งหมดในคลัสเตอร์หนาแน่นแค่ไหน ดังนั้นค่าเฉลี่ย   สำหรับข้อมูลทั้งหลายของชุดข้อมูลทั้งหมดเป็นการวัดว่าข้อมูลได้รับการจัดกลุ่มอย่างเหมาะสมเพียงใด หากมีคลัสเตอร์มากเกินไปหรือน้อยเกินไป ซึ่งอาจเกิดขึ้นได้เมื่อมีเลือกค่า   ที่ไม่ดี สำหรับอัลกอริธึมการจัดกลุ่ม (เช่น: k-means ) คลัสเตอร์บางกลุ่มมักจะแสดงค่า Silhouette ที่แคบกว่าส่วนที่เหลือ ดังนั้น กราฟและความหมายของ Silhouette อาจใช้บ่งบอกถึงจำนวนของคลัสเตอร์ภายในชุดข้อมูล นอกจากนี้ยังสามารถเพิ่มโอกาสที่ Silhouette จะถูกขยายให้มากที่สุดที่ระบุถึงจำนวนคลัสเตอร์ที่ถูกต้องด้วยการปรับขนาดข้อมูลใหม่โดยใช้ feature weights ที่มีลักษณะเฉพาะเจาะจงสำหรับแต่ละคลัสเตอร์ [2]

Kaufman และคณะฯ เสนอ silhouette coefficient สำหรับค่าสูงสุดของค่าเฉลี่ย   สำหรับข้อมูลทั้งหมดของข้อมูลทั้งชุดในรูปของ [3]

 

เมื่อ   หมายถึงค่าเฉลี่ย   สำหรับข้อมูลทั้งหมดของข้อมูลทั้งชุดที่ใช้สำหรับจำนวนของ คลัสเตอร์  

See also แก้

References แก้

 

  1. 1.0 1.1 Peter J. Rousseeuw (1987). "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis". Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7.
  2. R.C. de Amorim, C. Hennig (2015). "Recovering the number of clusters in data sets with noise features using feature rescaling factors". Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039.
  3. Leonard Kaufman; Peter J. Rousseeuw (1990). Finding groups in data : An introduction to cluster analysis. Hoboken, NJ: Wiley-Interscience. p. 87. doi:10.1002/9780470316801. ISBN 9780471878766.