ผู้ใช้:Motarkratom/Silhouette (clustering)

Silhouette หมายถึงวิธีการตีความและการตรวจสอบความสอดคล้องภายใน กลุ่มข้อมูล (cluster) เทคนิคนี้แสดงภาพกราฟิก (ที่รวบรัด กระชับ) ว่าแต่ละวัตถุได้รับการจำแนก แยกแยะ/จัดประเภทได้ดีเพียงใด ^[1]

ค่า Silhouette เป็นตัววัดความคล้ายคลึงของวัตถุ (object) กับคลัสเตอร์ของตัวเอง (ที่เกาะกลุ่มกัน) เมื่อเทียบกับคลัสเตอร์อื่นๆ (ที่แยกออกจากกัน) ค่า Silhouette มีช่วงตั้งแต่ − 1 ถึง +1 โดยที่ค่าสูง (high value) แสดงว่าวัตถุนั้นถูกจับคู่กับคลัสเตอร์ของตัวเองได้อย่างดี และจับคู่ได้ไม่ดีกับคลัสเตอร์ที่อยู่ใกล้เคียง ( neighboring clusters) ถ้าวัตถุส่วนใหญ่มีค่า Silhouette สูง แล้ว การกำหนดค่าการทำคลัสเตอร์ก็มีความเหมาะสม หากหลายจุดมีค่า Silhouette ที่ต่ำหรือมีค่าเป็นลบ แล้ว การกำหนดค่าการทำคลัสเตอร์ดังกล่าวอาจมีคลัสเตอร์จำนวนมากเกินไปหรือน้อยเกินไป

Silhouetteสามารถคำนวณได้ด้วยการวัด ระยะทาง เช่น ระยะทางแบบยุคลิด หรือ ระยะทางแมนแบบฮัตตัน

บทนิยาม แก้

แผนภูมิแสดงค่าของ Silhouette ของสัตว์สามประเภทจากชุดข้อมูลของสวนสัตว์ที่จัดทำด้วย Orange data mining ด้านล่างของแผนภูมิแสดงค่า (แต้ม) Silhouette ที่ระบุว่าปลาโลมาและปลา porpoise อยู่นอกกลุ่มของสัตว์เลี้ยงลูกด้วยนม

สมมติว่า ข้อมูลถูกจัดกลุ่มโดยใช้เทคนิคใดเทคนิคหนึ่ง เช่น k-mean ซึ่งแบ่งชุดข้อมูลดังกล่าวออกเป็น $k$ กลุ่ม

สำหรับ จุดข้อมูล $i$ ใดๆ ในคลัสเตอร์ $C_{i}$ ( ในทางคณิตศาสตร์เขียนแทนด้วย สัญลักษณ์ $i\in C_{i}$ ${\textstyle i\in C_{i}}$ ), กำหนดให้

a(i)={\frac {1}{|C_{i}|-1}}\sum _{j\in C_{i},i\neq j}d(i,j)

เป็นระยะห่างเฉลี่ยระหว่าง จุดข้อมูล $i$ และจุดข้อมูลอื่นๆ ทั้งหมดในคลัสเตอร์เดียวกัน โดยที่ $|C_{i}|$ คือจำนวนแต้ม (ค่า Silhouette) ที่จุดข้อมูลเป็นส่วนหนึ่งของคลัสเตอร์ $i$ , และ $d(i,j)$ คือระยะห่างระหว่างจุดข้อมูล $i$ และ $j$ ในคลัสเตอร์ $C_{i}$ (ทั้งนี้ เราหารด้วย $|C_{i}|-1$ เพราะเราไม่นำระยะทางของ $d(i,i)$ เข้ารวมผลรวมดังกล่าว เนื่องจาก $d(i,i)$ เป็นระยะทางระหว่างจากจุด $i$ และ $i$ ) เราสามารถตีความ $a(i)$ ได้ในลักษณะที่เป็นตัววัดซึ่งบ่งบอกว่าการกำหนด $i$ ไปให้กับคลัสเตอร์ได้ดีเพียงใด (ยิ่ง $a(i)$ มีค่าน้อยแสดงว่าการกำหนดดังกล่าวจะยิ่งดี)

จากนั้น เรากำหนดให้ ค่าเฉลี่ยความต่าง (mean dissimilarity) ของจุด $i$ ไปยังบางคลัสเตอร์ $C_{k}$ เป็นค่าเฉลี่ยของระยะทางจาก $i$ ไปยังทุกจุดใน $C_{k}$ (เมื่อ $C_{k}\neq C_{i}$ )

สำหรับแต่ละจุดข้อมูล $i\in C_{i}$ $i\in C_{i}$ ${\textstyle i\in C_{i}}$ เรากำหนดให้

b(i)=\min _{k\neq i}{\frac {1}{|C_{k}|}}\sum _{j\in C_{k}}d(i,j)

เป็นค่าระยะทางเฉลี่ยที่เล็กที่สุด ( $\min$ ในสูตรของ ${\textstyle b(i)}$ หมายถึง minimum) ของ $i$ ไปยังทุกๆ จุดในคลัสเตอร์อื่นๆ ซึ่ง $i$ ไม่ได้เป็นสมาชิกอยู่ในคลัสเตอร์ นั่น ทั้งนี้ เราจะเรียก คลัสเตอร์ที่มีค่าเฉลี่ยความต่างน้อยที่สุด (smallest mean dissimilarity) ว่า "neighboring cluster" ของ $i$ เพราะเป็นคลัสเตอร์ที่เหมาะสมที่สุดที่อยู่ถัดไปสำหรับจุด $i$

ต่อไป เรากำหนดค่า Silhouette ของจุดข้อมูล $i$ ให้อยู่ในรูปของ

s(i)={\frac {b(i)-a(i)}{\max\{a(i),b(i)\}}}

, เมื่อ

|C_{i}|>1

และ

s(i)=0

, เมื่อ

|C_{i}|=1

ซึ่งสามารถเขียนใหม่ให้อยู่ในรูปของ

s(i)={\begin{cases}1-a(i)/b(i),&{\mbox{if }}a(i)<b(i)\\0,&{\mbox{if }}a(i)=b(i)\\b(i)/a(i)-1,&{\mbox{if }}a(i)>b(i)\\\end{cases}}

ซึ่งจากการกำหนดข้างต้น จะเห็นได้ชัดว่า

-1\leq s(i)\leq 1

ทั้งนี้ สังเกตได้ว่า ค่าของ $a(i)$ ไม่ได้กำหนดไว้อย่างชัดเจนสำหรับคลัสเตอร์ที่มีขนาดเท่ากับ 1 ซึ่งในกรณีนี้ เราให้ $s(i)=0$ โดยถือเป็นการเลือกกลางๆ ในแง่ที่ว่าค่าดังกล่าวอยู่ที่จุดกึ่งกลางของ -1 และ 1 ซึ่งจริงๆ เราสามารถเลือกเป็นค่าใดก็ได้ ^[1]

สำหรับ $s(i)$ ให้ใกล้เคียงกับ 1 ซึ่งเราต้องการให้ ${\textstyle a(i)}$ น้อยกว่า ${\textstyle b(i)}$ มากๆ ( $a(i)\ll b(i)$ ) เนื่องจาก $a(i)$ เป็นตัววัดความไม่เหมือนกันของ $i$ ที่อยู่ในคลัสเตอร์ของตัวเอง ซึ่งค่า $a(i)$ น้อยๆ หมายความว่าเข้ากันได้ดี นอกจากนี้ ค่าของ $b(i)$ ซึ่งมีค่ามากๆ หมายความว่า $i$ เข้ากันไม่ได้กับคลัสเตอร์ที่อยู่ใกล้เคียง ดังนั้น ค่า $s(i)$ ที่ใกล้ๆ กับ 1 หมายความว่า ข้อมูลดังกล่าวมีการจัดกลุ่มอย่างเหมาะสม ด้วยหลักการเดียวกัน ถ้า $s(i)$ ใกล้เคียงกับ -1 แล้ว เราจะเห็นว่า $i$ จะเหมาะสมกว่าหากจัดกลุ่มในคลัสเตอร์ใกล้เคียง หากค่าของ $s(i)$ ใกล้ๆ กับศูนย์ หมายความว่า จุดข้อมูลนั้นอยู่บนเส้นขอบของสองคลัสเตอร์ (natural clusters)

ความหมายของ $s(i)$ สำหรับทุกจุดของคลัสเตอร์คือการวัดว่าจุดทั้งหมดในคลัสเตอร์หนาแน่นแค่ไหน ดังนั้นค่าเฉลี่ย $s(i)$ สำหรับข้อมูลทั้งหลายของชุดข้อมูลทั้งหมดเป็นการวัดว่าข้อมูลได้รับการจัดกลุ่มอย่างเหมาะสมเพียงใด หากมีคลัสเตอร์มากเกินไปหรือน้อยเกินไป ซึ่งอาจเกิดขึ้นได้เมื่อมีเลือกค่า $k$ ที่ไม่ดี สำหรับอัลกอริธึมการจัดกลุ่ม (เช่น: k-means ) คลัสเตอร์บางกลุ่มมักจะแสดงค่า Silhouette ที่แคบกว่าส่วนที่เหลือ ดังนั้น กราฟและความหมายของ Silhouette อาจใช้บ่งบอกถึงจำนวนของคลัสเตอร์ภายในชุดข้อมูล นอกจากนี้ยังสามารถเพิ่มโอกาสที่ Silhouette จะถูกขยายให้มากที่สุดที่ระบุถึงจำนวนคลัสเตอร์ที่ถูกต้องด้วยการปรับขนาดข้อมูลใหม่โดยใช้ feature weights ที่มีลักษณะเฉพาะเจาะจงสำหรับแต่ละคลัสเตอร์ ^[2]

Kaufman และคณะฯ เสนอ silhouette coefficient สำหรับค่าสูงสุดของค่าเฉลี่ย $s(i)$ สำหรับข้อมูลทั้งหมดของข้อมูลทั้งชุดในรูปของ ^[3]

SC=\max _{k}{\tilde {s}}\left(k\right)

เมื่อ ${\tilde {s}}\left(k\right)$ หมายถึงค่าเฉลี่ย $s(i)$ สำหรับข้อมูลทั้งหมดของข้อมูลทั้งชุดที่ใช้สำหรับจำนวนของ คลัสเตอร์ $k$

References แก้

↑ ^1.0 ^1.1 Peter J. Rousseeuw (1987). "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis". Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7.
↑ R.C. de Amorim, C. Hennig (2015). "Recovering the number of clusters in data sets with noise features using feature rescaling factors". Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039.
↑ Leonard Kaufman; Peter J. Rousseeuw (1990). Finding groups in data : An introduction to cluster analysis. Hoboken, NJ: Wiley-Interscience. p. 87. doi:10.1002/9780470316801. ISBN 9780471878766.

[Rousseeuw_1987-1] 1.0 ^1.1 Peter J. Rousseeuw (1987). "Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis". Computational and Applied Mathematics. 20: 53–65. doi:10.1016/0377-0427(87)90125-7.

[2] R.C. de Amorim, C. Hennig (2015). "Recovering the number of clusters in data sets with noise features using feature rescaling factors". Information Sciences. 324: 126–145. arXiv:1602.06989. doi:10.1016/j.ins.2015.06.039.

[3] Leonard Kaufman; Peter J. Rousseeuw (1990). Finding groups in data : An introduction to cluster analysis. Hoboken, NJ: Wiley-Interscience. p. 87. doi:10.1002/9780470316801. ISBN 9780471878766.

[1]

[2]

[3]

ผู้ใช้:Motarkratom/Silhouette (clustering)

บทนิยาม แก้

See also แก้

References แก้