การเรียนรู้กฎความเกี่ยวพัน
บทความนี้ต้องการการจัดหน้า จัดหมวดหมู่ ใส่ลิงก์ภายใน หรือเก็บกวาดเนื้อหา ให้มีคุณภาพดีขึ้น คุณสามารถปรับปรุงแก้ไขบทความนี้ได้ และนำป้ายออก พิจารณาใช้ป้ายข้อความอื่นเพื่อชี้ชัดข้อบกพร่อง |
การเรียนรู้กฎความเกี่ยวพัน (association rule learning) เป็นกระบวนการหนึ่งในการทำเหมืองข้อมูลที่ได้รับความนิยมมาก โดยจะใช้กฎความเกี่ยวพันในการหาความเกี่ยวพันของข้อมูลสองชุดหรือมากกว่าสองชุดขึ้นไปภายในกลุ่มข้อมูลที่มีขนาดใหญ่ ในการหากฎความเกี่ยวพันนั้นจะมีขั้นตอนวิธีการหาหลายวิธีด้วยกัน แต่ขั้นตอนวิธีที่เป็นที่รู้จักและใช้อย่างแพร่หลายคือ ขั้นตอนวิธี Apriori
ตัวอย่างหนึ่งของกฎความเกี่ยวพันที่ใช้กันก็คือ Market Basket Analysis ที่ใช้ในการหาความสัมพันธ์ของสินค้าที่ลูกค้ามักจะซื้อพร้อมกัน เพื่อใช้ในการจัดรายการส่งเสริมการขาย
หลักการพื้นฐาน
แก้กฎความเกี่ยวพันสามารถเขียนได้ในรูปเซตของสิ่งที่เป็นเหตุ ไปสู่เซตของสิ่งที่เป็นผล
โดยกำหนดให้
I ={ i1 , i2 ,…,im} เป็น set ของ Items
D ={t1 , t2 ,…,tm} เป็น set ของ Transaction ซึ่งแต่ละ Transaction ใน D จะมีหมายเลข Transaction ID ที่ไม่ซ้ำกันและกำหนดให้ t เป็น subset ของ I
ตัวอย่างเช่น รายการที่ลูกค้าซื้อสินค้าทั้งหมด 5 Transaction ซึ่งมีรายละเอียดดังตาราง
Transaction ID | Milk | Bread | Butter | Beer |
---|---|---|---|---|
1 | 1 | 1 | 0 | 0 |
2 | 0 | 1 | 1 | 0 |
3 | 0 | 0 | 0 | 1 |
4 | 1 | 1 | 1 | 0 |
5 | 0 | 1 | 0 | 0 |
จากนั้น นำข้อมูล Transaction มาสร้าง Co-Occerence Table หรือตารางนับความถี่ของเหตุการณ์ เพื่อหาความสัมพันธ์ว่าเหตุการณ์อะไรเกิดขึ้นคู่กับเหตุการณ์อะไร ดังนี้
Milk | Bread | Butter | Beer | |
---|---|---|---|---|
Milk | 2* | 2 | 1 | 0 |
Bread | 2 | 4* | 2 | 0 |
Butter | 1 | 1 | 2* | 0 |
Beer | 0 | 0 | 0 | 1* |
*เป็นการบอกว่ามีการซื้อสินค้านั้นกี่ครั้ง
จากนั้นจึงทำการสร้างกฎจากความเกี่ยวพันที่เป็นไปได้ โดยใช้ IF condition Then result เช่น
1.If Milk Then Bread
2.If Milk Then Butter เป็นต้น
ซึ่งจำนวนกฎที่เป็นไปได้ทั้งหมด จะคำนวณจากสมการ 2n-1 โดย n คือ จำนวนชนิดของ Items ทั้งหมด เช่น จากตารางมีจำนวนสินค้าทั้งหมด 4 ชนิด ดังนั้น จำนวนกฎที่เป็นไปได้ทั้งหมด คือ 24-1 = 15 กฎ กฎความเกี่ยวพันที่ได้ จะไม่ได้บอกว่าเหตุการณ์ใดเกิดขึ้นก่อนหลัง เพียงแต่บอกว่าเหตุการณ์เหล่านั้น เกิดขึ้นด้วยกันเท่านั้น
ตัวชี้วัดที่ใช้ในการหากฎที่มีความน่าสนใจ
แก้1.Support Factor เป็นค่าที่บ่งบอกว่าเหตุการณ์ A กับ B มีความถี่ในการเกิดขึ้นมากน้อยแค่ไหน
A → B : Support Factor =(A U B)
2. Confident Factor เป็นค่าที่บอกว่า เมื่อเกิดเหตุการณ์ B แล้ว มีโอกาสที่จะเกิดเหตุการณ์ A มากน้อยแค่ไหน
A → B : Confident Factor= P(A|B)