การเรียนรู้แบบกึ่งมีผู้สอน

การเรียนรู้แบบกึ่งมีผู้สอน (semi-supervised learning) เป็นรูปแบบหนึ่งของการเรียนรู้ของเครื่องที่ใช้ข้อมูลที่มีฉลากกำกับจำนวนเล็กน้อยและข้อมูลที่ไม่มีฉลากกำกับจำนวนมากในระหว่างการฝึก การเรียนรู้แบบกึ่งมีผู้สอนอยู่ระหว่างการเรียนรู้แบบไม่มีผู้สอน (ข้อมูลการฝึกทั้งหมดไม่มีฉลากกำกับ) และ การเรียนรู้แบบมีผู้สอน (ข้อมูลการฝึกทั้งหมดมีฉลากกำกับ) การเรียนรู้แบบกึ่งมีผู้สอนมีจุดมุ่งหมายเพื่อบรรเทาปัญหาการที่ข้อมูลฝึกที่มีฉลากกำกับนั้นมีอยู่เพียงจำกัด

    รูปแสดงตัวอย่างอิทธิพลของกลุ่มตัวอย่างที่ไม่มีฉลากกำกับต่อการเรียนรู้แบบกึ่งมีผู้สอน
    รูปด้านบนแสดงขอบเขตที่เป็นไปได้สำหรับการจำแนกประเภทโดยใช้ตัวอย่างที่มีฉลากกำกับเท่านั้น (วงกลมสีขาวและสีดำ)
    รูปด้านล่างแสดงขอบเขตของการจำแนกประเภทโดยใช้ตัวอย่างที่มีฉลากกำกับ (วงกลมสีขาวและสีดำ) และตัวอย่างที่ไม่มีฉลากกำกับ (วงกลมสีเทา)
    กระบวนการนี้สามารถมองได้ว่าเป็นการจับกลุ่มข้อมูล โดยใช้ข้อมูลที่มีฉลากกำกับติดอยู่แล้วเพื่อติดฉลากกำกับให้กับกลุ่มก้อนของข้อมูลที่ยังไม่มีฉลากกำกับ โดยพิจารณาขอบเขตและความหนาแน่นของกลุ่มก้อน

ปัญหา

แก้

ปัญหาที่เหมาะจะใช้การเรียนรู้แบบไม่มีผู้สอนนั้นจะเป็นปัญหาที่มีตัวอย่างที่ไม่มีฉลากกำกับอยู่เป็นจำนวนมาก และค่าใช้จ่ายในการทำตัวอย่างที่มีฉลากกำกับค่อนข้างสูง การเรียนรู้ของเครื่องสาขาอื่น ๆ บางสาขามีแรงจูงใจเช่นนี้เหมือนกัน แต่ใช้สมมติฐานและวิธีการที่แตกต่างกัน เช่น การเรียนรู้เชิงรุก และการเรียนรู้แบบมีผู้สอนแบบอ่อน

เมื่อใช้ตัวอย่างที่ไม่มีฉลากกำกับและตัวอย่างที่มีฉลากกำกับจำนวนน้อยร่วมกัน ความแม่นยำของการเรียนรู้อาจดีขึ้นได้อย่างมาก การได้รับข้อมูลที่ติดฉลากกำกับสำหรับปัญหาเฉพาะมักต้องใช้แรงงานที่มีทักษะ (เช่น การถอดเสียงคลิปเสียง) หรือทำการทดลองทางกายภาพ (เช่น การกำหนดโครงสร้างสามมิติของโปรตีน หรือการพิจารณาว่ามีน้ำมันหรือก๊าซอยู่ในส่วนจำเพาะ) ดังนั้นต้นทุนในการได้รับตัวอย่างที่มีฉลากจึงมักจะสูง และไม่สามารถได้รับชุดตัวอย่างขนาดใหญ่ที่มีฉลากครบถ้วนได้ ขณะเดียวกัน ต้นทุนในการได้รับตัวอย่างที่ไม่มีฉลากก็มักจะค่อนข้างต่ำ ในกรณีเช่นนี้ การเรียนรู้แบบกึ่งมีผู้สอนมีคุณค่าอย่างยิ่ง การเรียนรู้แบบกึ่งมีผู้สอนยังมีคุณค่าทางทฤษฎีในการสร้างแบบจำลองการเรียนรู้ของเครื่องและการเรียนรู้ของมนุษย์

วิธีการ

แก้

พิจารณาข้อมูลตัวอย่าง   ตัวที่เป็นที่มีการแจกแจงเหมือนกันโดยเป็นอิสระต่อกัน   และฉลากกำกับข้อมูลนั้น   และมีตัวอย่าง   ที่ไม่มีฉลากกำกับ   การเรียนรู้แบบกึ่งมีผู้สอนจะทำการนำตัวอย่างเหล่านี้เข้ามาใช้ร่วมกันเพื่อให้ได้ประสิทธิภาพการจำแนกเชิงสถิติที่ดีกว่าการใช้แค่ตัวอย่างที่ไม่มีฉลากกำกับมาทำการเรียนรู้แบบมีผู้สอน หรือยอมไม่ใช้ฉลากกำกับเลยแล้วทำการเรียนรู้แบบไม่มีผู้สอน

การเรียนรู้แบบกึ่งมีผู้สอนอาจเป็นการเรียนรู้โดย การอนุมานถ่ายโอน หรือ การให้เหตุผลแบบอุปนัย[1] วัตถุประสงค์ของการเรียนรู้แบบอนุมานถ่ายโอนคือการอนุมานฉลากกำกับที่ถูกต้องสำหรับตัวอย่างที่ไม่มีฉลากกำกับ   จุดประสงค์ของการเรียนรู้โดยการให้เหตุผลแบบอุปนัยคือ การอนุมานแผนเชื่อมโยงความสัมพันธ์จาก   สู่  

ประวัติศาสตร์

แก้

การเรียนรู้ด้วยตัวเองในการแก้ปัญหาแบบศึกษาสำนึก ถือเป็นการเรียนรู้แบบกึ่งมีผู้สอนที่เก่าแก่ที่สุด[2] โดยเริ่มมีตัวอย่างการใช้งานตั้งแต่ช่วงปี 1960[3]

กรอบการเรียนรู้เชิงอนุมานได้รับการเสนออย่างเป็นทางการโดย วลาดีมีร์ วัปนิค ในคริสต์ทศวรรษ 1970[4] และความสนใจในการเรียนรู้แบบอุปนัยโดยใช้แบบจำลองกำเนิดก็เกิดขึ้นในช่วงเวลาเดียวกันเช่นกัน

ความนิยมที่เพิ่มขึ้นของการเรียนรู้แบบกึ่งมีผู้สอนในยุคหลังมานี้เนื่องมาจากการที่ในทางปฏิบัติแล้ว โปรแกรมประยุกต์จำนวนมากสามารถรับข้อมูลที่ไม่มีฉลากกำกับได้ (เช่น ข้อความในหน้าเว็บ ลำดับโปรตีน หรือรูปภาพ)[5]

อ้างอิง

แก้
  1. "Semi-Supervised Learning Literature Survey, Page 5". 2007. CiteSeerX 10.1.1.99.9681. {{cite journal}}: Cite journal ต้องการ |journal= (help)
  2. Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Semi-supervised learning. Cambridge, Mass.: MIT Press. ISBN 978-0-262-03358-9.
  3. Scudder, H. (July 1965). "Probability of error of some adaptive pattern-recognition machines". IEEE Transactions on Information Theory. 11 (3): 363–371. doi:10.1109/TIT.1965.1053799. ISSN 1557-9654.
  4. Vapnik, V.; Chervonenkis, A. (1974). Theory of Pattern Recognition (ภาษารัสเซีย). Moscow: Nauka. cited in Chapelle, Schölkopf & Zien 2006, p. 3
  5. Zhu, Xiaojin (2008). "Semi-supervised learning literature survey" (PDF). University of Wisconsin-Madison. คลังข้อมูลเก่าเก็บจากแหล่งเดิม (PDF)เมื่อ 2016-03-03. สืบค้นเมื่อ 2023-03-22.