การเรียนรู้กฎความเกี่ยวพัน

การเรียนรู้กฎความเกี่ยวพัน (association rule learning) เป็นกระบวนการหนึ่งในการทำเหมืองข้อมูลที่ได้รับความนิยมมาก โดยจะใช้กฎความเกี่ยวพันในการหาความเกี่ยวพันของข้อมูลสองชุดหรือมากกว่าสองชุดขึ้นไปภายในกลุ่มข้อมูลที่มีขนาดใหญ่ ในการหากฎความเกี่ยวพันนั้นจะมีขั้นตอนวิธีการหาหลายวิธีด้วยกัน แต่ขั้นตอนวิธีที่เป็นที่รู้จักและใช้อย่างแพร่หลายคือ ขั้นตอนวิธี Apriori

ตัวอย่างหนึ่งของกฎความเกี่ยวพันที่ใช้กันก็คือ Market Basket Analysis ที่ใช้ในการหาความสัมพันธ์ของสินค้าที่ลูกค้ามักจะซื้อพร้อมกัน เพื่อใช้ในการจัดรายการส่งเสริมการขาย

หลักการพื้นฐาน

แก้

กฎความเกี่ยวพันสามารถเขียนได้ในรูปเซตของสิ่งที่เป็นเหตุ ไปสู่เซตของสิ่งที่เป็นผล

โดยกำหนดให้

I ={ i1 , i2 ,…,im} เป็น set ของ Items

D ={t1 , t2 ,…,tm} เป็น set ของ Transaction ซึ่งแต่ละ Transaction ใน D จะมีหมายเลข Transaction ID ที่ไม่ซ้ำกันและกำหนดให้ t เป็น subset ของ I

ตัวอย่างเช่น รายการที่ลูกค้าซื้อสินค้าทั้งหมด 5 Transaction ซึ่งมีรายละเอียดดังตาราง

Transaction ID Milk Bread Butter Beer
1 1 1 0 0
2 0 1 1 0
3 0 0 0 1
4 1 1 1 0
5 0 1 0 0

จากนั้น นำข้อมูล Transaction มาสร้าง Co-Occerence Table หรือตารางนับความถี่ของเหตุการณ์ เพื่อหาความสัมพันธ์ว่าเหตุการณ์อะไรเกิดขึ้นคู่กับเหตุการณ์อะไร ดังนี้

Milk Bread Butter Beer
Milk 2* 2 1 0
Bread 2 4* 2 0
Butter 1 1 2* 0
Beer 0 0 0 1*

*เป็นการบอกว่ามีการซื้อสินค้านั้นกี่ครั้ง

จากนั้นจึงทำการสร้างกฎจากความเกี่ยวพันที่เป็นไปได้ โดยใช้ IF condition Then result เช่น

1.If Milk Then Bread

2.If Milk Then Butter เป็นต้น

ซึ่งจำนวนกฎที่เป็นไปได้ทั้งหมด จะคำนวณจากสมการ 2n-1 โดย n คือ จำนวนชนิดของ Items ทั้งหมด เช่น จากตารางมีจำนวนสินค้าทั้งหมด 4 ชนิด ดังนั้น จำนวนกฎที่เป็นไปได้ทั้งหมด คือ 24-1 = 15 กฎ กฎความเกี่ยวพันที่ได้ จะไม่ได้บอกว่าเหตุการณ์ใดเกิดขึ้นก่อนหลัง เพียงแต่บอกว่าเหตุการณ์เหล่านั้น เกิดขึ้นด้วยกันเท่านั้น

ตัวชี้วัดที่ใช้ในการหากฎที่มีความน่าสนใจ

แก้

1.Support Factor เป็นค่าที่บ่งบอกว่าเหตุการณ์ A กับ B มีความถี่ในการเกิดขึ้นมากน้อยแค่ไหน

A → B : Support Factor =(A U B)

2. Confident Factor เป็นค่าที่บอกว่า เมื่อเกิดเหตุการณ์ B แล้ว มีโอกาสที่จะเกิดเหตุการณ์ A มากน้อยแค่ไหน

A → B : Confident Factor= P(A|B)

อ้างอิง

แก้