ขั้นตอนวิธีการค้นหาคำแบบซี

ในวิทยาการคอมพิวเตอร์ ขั้นตอนวิธีนี้ คือ ขั้นตอนวิธีที่เอาไว้ใช้ในการหารูปแบบคำ(pattern)ในคำ(text) โดยเราให้ความยาวของคำ(text) เป็น n และคำเป็น m แล้วผลรวมของเวลาที่ใช้ในการประมวลผล คือ O(n+m) ซึ่งจะเหมือนกับขั้นตอนวิธีของคนูธ-มอร์ริส-แพรตต์

           ขั้นตอนวิธี-ซี เป็นขั้นตอนวิธีแบบตรงไปตรงมา (Brute-Force algorithm) ซึ่งเกิดจากการทำงานวนลูปรูปแบบคำ(pattern) n ครั้ง และวนรูปคำ(text) อีก m ครั้ง ทำให้ประสิทธิภาพของเวลาการทำงานของโปรแกรมเป็น O(n+m)

หลักการ แก้

           หลักการของขั้นตอนวิธีแบบซีนั้น แบ่งขั้นตอนการทำงานออกเป็น 3 หลัก

1.       สร้างสตริงขึ้นมาใหม่ ซึ่งเกิดจากนำเอา Pattern + $ + Text โดยเครื่องหมาย $ เป็นเครื่องหมายที่เราสมมติขึ้นมาเพื่อขั้นระหว่าง Pattern และ Text เพื่อให้ง่ายต่อการตรวจสอบ

ตัวอย่าง

Text = “ABCABCABCD” และ Pattern = “ABCD”

New string S = “ABCD$ABCABCABCD”

2.       สร้างอาเรย์ขึ้นมา 1 อาเรย์ เรียกว่า Z-array ซึ่งภายในจะประกอบไปด้วย Z-Value และ Z-value จะทำให้เกิด Z-box ขึ้น

3.       เมื่อมีคำที่เหมือนกับ Pattern เกิดขึ้น เราสามารถสังเกตได้จาก Z-value ที่มีความยาวเท่ากับ ความยาวของ Pattren

Z-array คืออะไร แก้

     Z-array คืออาเรย์ใหม่ ที่เกิดจากการต่อกันระหว่าง Pattern กับ Text ซึ่งจะมีผลในการหาค่าของ Z-value และยังเป็นขั้นตอนที่สำคัญมากใน string matching ด้วยวิธี Z-algorithm

ตัวอย่าง

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string A B C D $ A B C A B C A B C D

Z-value คืออะไร แก้

           Z-value คือค่าตัวเลขที่ได้จากการทำงานวนลูปซ้อนกัน โดยลูปนอกเป็นอินเด็กซ์ที่ทุกตัวอักษร (สมมติเป็น index k) และลูปในคืออินเด็กซ์ที่ Patter ใน New String S

หลักการสร้าง Z-value แก้

           เราต้องสมมติ Z-box ขึ้นมา ซึ่ง Z-box นี้ คือ กล่องสตริงย่อยที่ตรงกับ Pattern ที่อยู่ด้านหน้า โดยเราจะให้ lt คือ ตัวอักษรด้านซ้ายสุดของกล่อง และ rt คือ ตัวอักษรด้านขวามือของกล่อง

ตัวอย่างการสร้าง Z-value แก้

1. Z algorithm จะเริ่มที่ k = 1, lt = 0, rt = 0 ให้ Z(0) คือความยาวของ Z-array = 15 ที่ k=1 S(1) ไม่เหมือนกับ S(0) ดังนั้นจึงไม่เกิด Z-box ขึ้น ค่าของอินเด็กซ์ lt และ rt ก็ยังคงเป็น 0

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0

Z(1) = 0 , lt =0, rt = 0

2. ต่อไปขยับอินเด็กซ์ k เป็น k= 2

ที่ k=2 S(2) ไม่เหมือนกับ S(0) ดังนั้นจึงไม่เกิด Z-box ขึ้น ค่าของอินเด็กซ์ lt และ rt ก็ยังคงเป็น 0

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0

Z(2) = 0 , lt =0, rt = 0

3. ต่อไปขยับอินเด็กซ์ k เป็น k= 3

ที่ k=3 S(3) ไม่เหมือนกับ S(0) ดังนั้นจึงไม่เกิด Z-box ขึ้น ค่าของอินเด็กซ์ lt และ rt ก็ยังคงเป็น 0

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0

Z(3) = 0 , lt =0, rt = 0

4. ต่อไปขยับอินเด็กซ์ k เป็น k= 4

ที่ k=4 S(4) ไม่เหมือนกับ S(0) ดังนั้นจึงไม่เกิด Z-box ขึ้น ค่าของอินเด็กซ์ lt และ rt ก็ยังคงเป็น 0

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0

Z(4) = 0 , lt =0, rt = 0

5. ต่อไปขยับอินเด็กซ์ k เป็น k= 5

ที่ k=5 S(5) เหมือน S(0), S(6) เหมือน S(1) และ S(7) เหมือน S(2) ดังนั้น Z(5) = 3 และเกิด Z-box ทำให้ lt = 5 และ rt = 7

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3

Z(5) = 3, lt =5, rt = 7

6. ต่อไปขยับอินเด็กซ์ k เป็น k= 6

ที่  k = 6 อยู่ใน substring ก่อนหน้า ซึ่ง(rt = 7) และ substring ย่อยก่อนหน้านี้เริ่มต้นที่ k-lt (6-5) โดย Z(1) = 0  ซึ่ง < substring ที่เหลือ S[6…7] ดังนั้น Z(6) = Z(1) = 0 โดยไม่ต้องมีการคำนวณเพิ่มเติม

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0

Z(6) = 0, lt = 5, rt = 7

7. ต่อไปขยับอินเด็กซ์ k เป็น k= 7

ที่  k = 7 อยู่ใน substring ก่อนหน้า ซึ่ง(rt = 7) และ substring ย่อยก่อนหน้านี้เริ่มต้นที่ k-lt (7-5) โดย Z(2) = 0  ซึ่ง < substring ที่เหลือ S[7…7] ดังนั้น Z(7) = Z(2) = 0 โดยไม่ต้องมีการคำนวณเพิ่มเติม

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0

Z(7) = 0, lt = 5, rt = 7

8. ต่อไปขยับอินเด็กซ์ k เป็น k= 8

ที่ k=8 S(8) เหมือน S(0), S(9) เหมือน S(1) และ S(10) เหมือน S(2) ดังนั้น S(8) = 3 และเกิด Z-box ทำให้ lt = 8 และ rt = 10

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3

Z(8) = 3, lt = 8, rt = 10

9. ต่อไปขยับอินเด็กซ์ k เป็น k= 9

ที่  k = 9 อยู่ใน substring ก่อนหน้า ซึ่ง (rt = 10) และ substring ย่อยก่อนหน้านี้เริ่มต้นที่ k-lt (9-8) โดย Z(1) = 0  ซึ่ง < substring ที่เหลือ S[9…10] ดังนั้น Z(9) = Z(1) = 0 โดยไม่ต้องมีการคำนวณเพิ่มเติม

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3 0

Z(9) = 0, lt = 8, rt = 10

10. ต่อไปขยับอินเด็กซ์ k เป็น k= 10

ที่  k = 10 อยู่ใน substring ก่อนหน้า ซึ่ง r = 10 และ substring ย่อยก่อนหน้านี้เริ่มต้นที่ k-lt (10-8) โดย Z(2) = 0  ซึ่ง < substring ที่เหลือ S[10…10] ดังนั้น Z(10) = Z(2) = 0 โดยไม่ต้องมีการคำนวณเพิ่มเติม

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3 0 0

Z(10) = 0, lt = 8, rt = 10

11.  ต่อไปขยับอินเด็กซ์ k เป็น k= 11

ที่ k=11 S(11) เหมือน S(0), S(12) เหมือน S(1), S(13) เหมือน S(2) และ S(14) เหมือน S(3) ดังนั้น Z(11) = 4 และเกิด Z-box ทำให้ lt = 11 และ rt = 14

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3 0 0 4

Z(11) = 4, lt = 11, rt = 14

12.  ต่อไปขยับอินเด็กซ์ k เป็น k= 12

ที่  k = 12 อยู่ใน substring ก่อนหน้า ซึ่ง (rt = 14) และ substring ย่อยก่อนหน้านี้เริ่มต้นที่ k-lt (12-11) โดย Z(1) = 0  ซึ่ง < substring ที่เหลือ S[12…14] ดังนั้น Z(12) = Z(1) = 0 โดยไม่ต้องมีการคำนวณเพิ่มเติม

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3 0 0 4 0

Z(12) = 0, lt = 11, rt = 14

13.  ต่อไปขยับอินเด็กซ์ k เป็น k= 13

ที่  k = 13 อยู่ใน substring ก่อนหน้า ซึ่ง (rt = 14) และ substring ย่อยก่อนหน้านี้เริ่มต้นที่ k-lt (13-11) โดย Z(2) = 0  ซึ่ง < substring ที่เหลือ S[13…14] ดังนั้น Z(13) = Z(2) = 0 โดยไม่ต้องมีการคำนวณเพิ่มเติม

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3 0 0 4 0 0

Z(13) = 0, lt = 11, rt = 14

14.  ต่อไปขยับอินเด็กซ์ k เป็น k= 14

ที่  k = 14 อยู่ใน substring ก่อนหน้า ซึ่ง (rt = 14) และ substring ย่อยก่อนหน้านี้เริ่มต้นที่ k-lt (14-11) โดย Z(3) = 0  ซึ่ง < substring ที่เหลือ S[14…14] ดังนั้น Z(14) = Z(3) = 0 โดยไม่ต้องมีการคำนวณเพิ่มเติม

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3 0 0 4 0 0 0

Z(14) = 0, lt = 11, rt = 14

15.   Z-array ที่สมบูรณ์ จะเป็นดังนี้

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3 0 0 4 0 0 0

มี Pattern อยู่ใน Text กี่ตำแหน่ง แก้

เราจะทราบได้อย่างไรว่ามี Pattern อยู่ใน Text หรือไม่???  Pattern = “ABCD” ซึ่งมีความยาวเป็น 4 และ เราจะพบ Z-value ที่มีค่าเท่ากับ 4 ที่ตำแหน่งที่ 11 ของ Z-array ซึ่ง ถ้าเอา Z(11) - |Pattern+1| = 11-5 = 6 ซึ่ง ตรงกับ Text ในตำแหน่งที่ 6 พอดี

position 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
New string S A B C D $ A B C A B C A B C D
Z-value 15 0 0 0 0 3 0 0 3 0 0 4 0 0 0

ประสิทธิภาพการทำงาน แก้

เนื่องจากการทำงานวนลูปรูปแบบคำ(pattern) n ครั้ง และวนรูปคำ(text) อีก m ครั้ง ทำให้ประสิทธิภาพของเวลาการทำงานของโปรแกรมเป็น O(n+m)

โค้ดตัวอย่าง แก้

def search_without_sentinel(text,pattern):
	s = pattern + text
	Z = [0] * len(s)
	Z[0] = len(s)
	
	rt = 0
	lt = 0
	occurrence = []
	
	for k in range(1,len(s)):
		if k > rt:
			n=0
			while n+k < len(s) and s[n] == s[n+k]:
				n+= 1
				Z[k] = n
				if n>0:
					lt = k
					rt = k+n-1
		else:
			p = k-lt
			right_part_len = rt-k+1
			
			if Z[p]< right_part_len:
				Z[k] = Z[p]
			else:
				i = rt+1
				while i<len(s) and s[i] == s[i-k]:
					i+=1
					Z[k] = i-k
					lt = k
					rt = i -1
		Z[k] = min(len(pattern),Z[k])
		
		if Z[k] == len(pattern):
			occurrence.append(k-len(pattern))
	
	return occurrence

อ้างอิง แก้

Ivan Yurchenko. (October 15, 2013), "Z algorithm" , Yet another programming blog, 25 เมษายน 2561, https://ivanyu.me/blog/2013/10/15/z-algorithm/

Utkarsh Trivedi, "Z algorithm (Linear time pattern searching Algorithm)" , GeeksforGeeks, 25 เมษายน 2561, https://www.geeksforgeeks.org/z-algorithm-linear-time-pattern-searching-algorithm/