ผลต่างระหว่างรุ่นของ "การแบ่งกลุ่มข้อมูล"

เพิ่มกล่องข้อมูล เพิ่มภาพ เพิ่มอ้างอิง
(Bot: Migrating 25 interwiki links, now provided by Wikidata on d:q622825 (translate me))
ป้ายระบุ: ลบลิงก์ข้ามภาษา
(เพิ่มกล่องข้อมูล เพิ่มภาพ เพิ่มอ้างอิง)
 
{{Machine learning bar}}
'''การแบ่งกลุ่มข้อมูล''' ({{lang-en|data clustering}}) เป็นวิธีการวิเคราะห์ข้อมูล ซึ่งใช้ใน[[การเรียนรู้ของเครื่อง]] [[การทำเหมืองข้อมูล]] โดยจะแบ่งชุดข้อมูล (มักจะเป็น[[เวกเตอร์]]) ออกเป็นกลุ่ม (cluster) นำข้อมูลที่มีคุณลักษณะเหมือนกัน หรือคล้ายกันจัดไว้ในกลุ่มเดียวกัน ขั้นตอนวิธีที่ใช้ในการแบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า โดยใช้การวัดระยะแบบต่าง ๆ เช่น [[การวัดระยะแบบยูคลิด]] (Euclidean distance) [[การวัดระยะแบบแมนฮัตตัน]] (Manhattan distance) [[การวัดระยะแบบเชบิเชฟ]] (Chebychev distance)
 
'''การแบ่งกลุ่มข้อมูล''' ({{lang-en|data clustering}}) หรือ '''การวิเคราะห์คลัสเตอร์''' (cluster analysis) เป็นวิธีการจัดกลุ่มข้อมูลที่มีลักษณะเหมือนกันไว้ในกลุ่มเดียวกัน (เรียกว่า คลัสเตอร์) เป็นส่วนหลักของการ[[การทำเหมืองข้อมูล]] [[การรู้จำแบบ]], [[การวิเคราะห์ภาพ]] [[ชีวสารสนเทศศาสตร์]] [[การบีบอัดข้อมูล]] [[คอมพิวเตอร์กราฟิกส์]] [[การเรียนรู้ของเครื่อง]] และใช้ในการวิเคราะห์ข้อมูลทาง[[สถิติ]]
การแบ่งกลุ่มข้อมูลจะแตกต่างจาก[[การแบ่งประเภทข้อมูล]] (classification) โดยจะแบ่งกลุ่มข้อมูลจากความคล้าย โดยไม่มีการกำหนดประเภทของข้อมูลไว้ก่อน จึงกล่าวได้ว่าการแบ่งกลุ่มข้อมูล เป็น[[การเรียนรู้แบบไม่มีผู้สอน]]
 
'''การแบ่งกลุ่มข้อมูล''' ({{lang-en|data clustering}}) เป็นวิธีการวิเคราะห์ข้อมูล ซึ่งใช้คลัสเตอร์ในตัวเองไม่ใช่[[อัลกอริทึม]]แต่เป็นการเรียนรู้ทำงานร่วมกันของเครื่อง]]อัลกอริทึมที่หลากหลายเพื่อแก้ปัญหาในการทำงาน [[ขั้นตอนวิธีที่ใช้ในการทำเหมืองข้อมูล]]แบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยจะแบ่งชุดข้อมูล (มักจะเป็น[[เวกเตอร์]]) ออกเป็นกลุ่ม (cluster) นำข้อมูลที่มีคุณลักษณะเหมือนกัน หรือคล้ายกันจัดไว้ในกลุ่มเดียวกัน ขั้นตอนวิธีที่ใช้ในการแบ่งกลุ่มจะอาศัยความเหมือน (similarity) หรือ ความใกล้ชิด (proximity) โดยคำนวณจากการวัดระยะระหว่างเวกเตอร์ของข้อมูลเข้า โดยใช้การวัดระยะแบบต่าง ๆ ต่างๆเช่น [[การวัดระยะแบบยูคลิด]] (Euclidean distance) [[การวัดระยะแบบแมนฮัตตัน]] (Manhattan distance) [[การวัดระยะแบบเชบิเชฟ]] (Chebychev distance)
ขั้นตอนวิธีการแบ่งกลุ่ม ได้แก่ [[k-means clustering]], [[hierarchical clustering]], [[self-organizing map]] (som)
 
[[File:Cluster-2.svg|thumb|left|ผลของการแบ่งกลุ่มข้อมูล โดยสีของสี่เหลี่ยมแสดงข้อมูล 3 กลุ่ม]]
การแบ่งกลุ่มข้อมูลอาจใช้เป็นข้อตอนเบื้องต้นของการวิเคราะห์ข้อมูล เพื่อช่วยในการลดขนาดข้อมูล (แยกเป็นหลาย ๆ กลุ่มและคัดเฉพาะบางกลุ่มเพื่อทำการวิเคราะห์ต่อไป หรือแยกการวิเคราะห์ออกเป็นสำหรับแต่ละกลุ่ม) ก่อนที่จะนำไปวิเคราะห์ด้วยวิธีการอื่นต่อไป
 
การวิเคราะห์คลัสเตอร์เริ่มมีการกล่าวถึงครั้งแรกในปี พ.ศ. 2475 โดย ไดร์ฟเวอร์ และโครเบอร์<ref>{{Cite journal|last=Driver and Kroeber|date=1932|title=Quantitative Expression of Cultural Relationships|url=http://dpg.lib.berkeley.edu/webdb/anthpubs/search?all=&volume=31&journal=1&item=5|journal=University of California Publications in American Archaeology and Ethnology|volume=Quantitative Expression of Cultural Relationships|pages=211–256|via=http://dpg.lib.berkeley.edu}}</ref> และมีการนำมาใช้งานในด้านจิตวิทยาในปี พ.ศ. 2481<ref>{{Cite journal|last=Zubin|first=Joseph|date=1938|title=A technique for measuring like-mindedness.|journal=The Journal of Abnormal and Social Psychology|language=en|volume=33|issue=4|pages=508–516|doi=10.1037/h0055441|issn=0096-851X}}</ref>
ขั้นตอนวิธีในการแบ่งกลุ่มข้อมูล โดยทั่วไปแบ่งได้เป็น 2 ประเภทใหญ่ๆ คือ '''การแบ่งแบบเป็นลำดับขั้น''' (hierarchical) และ '''การแบ่งแบบตัดเป็นส่วน''' (partitional) การแบ่งแบบเป็นลำดับขั้นนั้น จะมีทำการแบ่งกลุ่มจากกลุ่มย่อยที่ถูกแบ่งไว้ก่อนหน้านั้นซ้ำหลายครั้ง ส่วนการแบ่งแบบตัดเป็นส่วนนั้น การแบ่งจะทำเพียงครั้งเดียว การแบ่งแบบเป็นลำดับขั้น จะมี 2 ลักษณะคือ '''แบบล่างขึ้นบน''' (bottom-up) หรือ เป็นการแบ่งแบบรวมกลุ่มจากกลุ่มย่อยให้ใหญ่ขึ้นไปเรื่อยๆ โดยเริ่มจากกลุ่มเล็กสุดคือในแต่ละกลุ่มมีข้อมูลเพียงตัวเดียว และ '''แบบบนลงล่าง''' (top-down) หรือ เป็นการแบ่งแบบกลุ่มจากกลุ่มใหญ่ให้ย่อยไปเรื่อยๆ โดยเริ่มจากกลุ่มใหญ่ที่สุด คือกลุ่มเดียวมีข้อมูลทุกตัวอยู่ในกลุ่ม
 
การแบ่งกลุ่มข้อมูลจะแตกต่างจาก[[การแบ่งประเภทข้อมูล]] (classification) โดยจะแบ่งกลุ่มข้อมูลจากความคล้าย โดยไม่มีการกำหนดประเภทของข้อมูลไว้ก่อน จึงกล่าวได้ว่าการแบ่งกลุ่มข้อมูล เป็น[[การเรียนรู้แบบไม่มีผู้สอน]] ขั้นตอนวิธีการแบ่งกลุ่ม ได้แก่ [[k-means clustering]], [[hierarchical clustering]], [[self-organizing map]] (som)
 
การแบ่งกลุ่มข้อมูลอาจใช้เป็นข้อตอนเบื้องต้นของการวิเคราะห์ข้อมูล เพื่อช่วยในการลดขนาดข้อมูล (แยกเป็นหลาย&nbsp;ๆ กลุ่มและคัดเฉพาะบางกลุ่มเพื่อทำการวิเคราะห์ต่อไป หรือแยกการวิเคราะห์ออกเป็นสำหรับแต่ละกลุ่ม) ก่อนที่จะนำไปวิเคราะห์ด้วยวิธีการอื่นต่อไป ขั้นตอนวิธีในการแบ่งกลุ่มข้อมูล โดยทั่วไปแบ่งได้เป็น 2 ประเภทใหญ่ๆ คือ '''การแบ่งแบบเป็นลำดับขั้น''' (hierarchical) และ '''การแบ่งแบบตัดเป็นส่วน''' (partitional) การแบ่งแบบเป็นลำดับขั้นนั้น จะมีทำการแบ่งกลุ่มจากกลุ่มย่อยที่ถูกแบ่งไว้ก่อนหน้านั้นซ้ำหลายครั้ง ส่วนการแบ่งแบบตัดเป็นส่วนนั้น การแบ่งจะทำเพียงครั้งเดียว การแบ่งแบบเป็นลำดับขั้น จะมี 2 ลักษณะคือ '''แบบล่างขึ้นบน''' (bottom-up) หรือ เป็นการแบ่งแบบรวมกลุ่มจากกลุ่มย่อยให้ใหญ่ขึ้นไปเรื่อยๆ โดยเริ่มจากกลุ่มเล็กสุดคือในแต่ละกลุ่มมีข้อมูลเพียงตัวเดียว และ '''แบบบนลงล่าง''' (top-down) หรือ เป็นการแบ่งแบบกลุ่มจากกลุ่มใหญ่ให้ย่อยไปเรื่อยๆ โดยเริ่มจากกลุ่มใหญ่ที่สุด คือกลุ่มเดียวมีข้อมูลทุกตัวอยู่ในกลุ่ม
 
== อ้างอิง ==
{{รายการอ้างอิง}}
 
[[หมวดหมู่:การเรียนรู้ของเครื่อง]]
[[หมวดหมู่:การค้นหาความรู้ในฐานข้อมูล]]
{{โครงคอม}}
72,284

การแก้ไข