การเรียนรู้แบบสอนตัวเอง
การเรียนรู้แบบสอนตัวเอง (Self-supervised learning, SSL) เป็นกระบวนทัศน์และวิธีการเรียนรู้ของเครื่อง โดยแบบจำลองได้รับการออกแบบให้สามารถสร้างฉลากกำกับขึ้นเองจากการฝึกด้วยข้อมูลที่ไม่มีฉลากกำกับได้ ทำให้ไม่จำเป็นต้องเตรียมฉลากกำกับโดยมนุษย์เพื่อจะทำการฝึก ดังนั้นจึงจัดได้ว่าเป็นรูปแบบการเรียนรู้ระดับกลางระหว่าง การเรียนรู้แบบมีผู้สอน กับ การเรียนรู้แบบไม่มีผู้สอน
เทคนิคการเรียนรู้แบบสอนตัวเองโดยทั่วไปมีพื้นฐานมาจากโครงข่ายประสาทเทียม รวมถึงแบบจำลองอื่น ๆ[1] แบบจำลองนี้แบ่งการฝึกเป็น 2 ขั้นตอน โดยในขั้นแรก จะทำการฝึกโดยฉลากกำกับเทียม ซึ่งมีส่วนช่วยในการกำหนดค่าเริ่มต้นพารามิเตอร์ของแบบจำลอง[2][3] ถัดมาจึงนำมาดำเนินการในงานจริงโดยใช้การเรียนรู้แบบมีผู้สอนหรือแบบไม่มีผู้สอน[4][5][6]
วิธีการเรียนรู้แบบสอนตัวเองได้แสดงให้เห็นผลลัพธ์ที่น่าพอใจในช่วงไม่กี่ปีที่ผ่านมา และได้นำไปใช้จริงในการประมวลผลคำพูด และใช้ในการรู้จำคำพูด เช่น ในเฟซบุ๊ก[7] สิ่งที่น่าสนใจหลักของวิธีการนี้ไม่ใช่แค่ว่าช่วยปรับปรุงผลลัพธ์สุดท้าย แต่ยังทำให้สามารถฝึกโดยข้อมูลคุณภาพต่ำได้ การเรียนรู้แบบสอนตัวเองช่วยให้สามารถเลียนแบบวิธีการที่มนุษย์เรียนรู้ที่จะจัดหมวดหมู่ได้อย่างใกล้เคียงมากขึ้น[8]
ภาพรวม
แก้อียาน เลอเกิงผู้พัฒนาโครงข่ายประสาทแบบสังวัตนาการเชื่อว่า วิธีการนี้จะสามารถเข้าถึงความฉลาดของมนุษย์ได้จริง[9]
มนุษย์มีการเรียนรู้เกี่ยวกับโลกนี้ตั้งแต่ยังเป็นเด็กทารก ซึ่งความรู้ที่จากการลองผิดลองถูก และการสังเกตนั้นมีมากมาย และมนุษย์ก็ได้นำเอาความรู้เหล่านั้นมาเสริมกับความรู้เดิมเรื่อย ๆ จนกลายเป็นความรู้ที่สามารถทำให้เป็นทั่วไปได้ และองค์ความรู้ตรงนี้ ก็ทำให้มนุษย์ต้องการตัวอย่างในการเรียนรู้สิ่งใหม่ ๆ น้อยลงมาก[10]
สิ่งที่เราต้องการได้จากวิธีการเรียนรู้แบบสอนตัวเองคือการสร้างแบบจำลองรากฐานที่ทำการสกัดเอาค่าแทนลักษณะที่ดี เพื่อนำไปฝึกต่อในงานอื่น ๆ เช่นนำไปทำการจำแนกเชิงสถิติ, การตรวจจับวัตถุ, การแบ่งส่วนภาพ และอื่น ๆ ซึ่งมักเรียกกันว่าเป็น "ภารกิจปลายน้ำ" (downstream task)
โดยปกติแล้ว เพื่อป้องกันความโน้มเอียงที่เกิดขึ้นในแบบจำลองหรือการเรียนรู้เกิน ชุดข้อมูลจะถูกจัดระเบียบให้ดีก่อนนำไปฝึก เช่น พยายามเฉลี่ยให้มีรูปในแต่ละประเภทเท่ากัน เป็นต้น แต่วิธีการเรียนรู้แบบสอนตัวเองได้ถูกพัฒนามาให้ใช้กับชุดข้อมูลดิบ ๆ ที่ไม่ผ่านการจัดการใด ๆ เลยได้ ซึ่งในจุดนี้สามารช่วยช่วยลดต้นทุนไปได้มาก
เนื่องจากใช้ชุดข้อมูลที่ค่อนข้างดิบ จึงต้องการข้อมูลจำนวนมาก และแบบจำลองของที่ใช้การเรียนรู้ด้วยวิธีนี้ส่วนมากก็มีขนาดใหญ่มาก เพื่อที่จะสามารถฝึกให้เข้ากับชุดข้อมูลขนาดมหาศาลนั้นได้
การนำมาประยุกต์ใช้
แก้การประมวลภาษาธรรมชาติ
แก้ได้ประสบความสำเร็จอย่างมากในสายการประมวลภาษาธรรมชาติ เช่นแบบจำลอง BERT[11] และอื่น ๆ มาก่อน แบบจำลองจะได้รับชุดข้อมูลที่ไม่มีฉลากกำกับ โดยในขณะทำการฝึก บางคำในประโยคจะถูกปิดแบบสุ่ม และแบบจำลองจะต้องเรียนรู้ที่จะทำนายคำที่ถูกปิดไป[12] คล้ายกับการทำข้อสอบเติมคำ โดยเราสามารถจำกัดคำที่เป็นไปได้โดยดูบริบทของคำที่อยู่รอบ ๆ
ด้วยวิธีการนี้ แบบจำลองจึงสามารถเรียนรู้ได้ว่าชุดของคำใดเหมาะที่จะเติมในช่องว่าง จากความหมายของคำ และจากไวยากรณ์ของภาษาที่ปรากฎเป็นรูปแบบในบทความ
GPT ของ OpenAI เป็นแบบจำลองภาษาที่สามารถใช้สำหรับการประมวลผลภาษา สามารถใช้แปลข้อความ ตอบคำถาม ฯลฯ ได้[13]
ในงานด้านอื่น ๆ
แก้การนำเอาเทคนิคนี้มาใช้ในงานด้านคอมพิวเตอร์วิทัศน์ เช่นการทำนายส่วนที่ถูกปิดไปในบางส่วนของรูปภาพ หรือบางเฟรมของวิดีโอ เป็นเรื่องที่ยากกว่ามาก เพราะชุดของค่าพิกเซลที่เป็นไปได้ในพื้นที่ส่วนหนึ่งของภาพ หรือเนื้อหาในเฟรมที่เป็นไปของวิดีโอนั้นมีอยู่ไม่จำกัด จึงยังเป็นสาขาที่ต้องมีการค้นคว้าต่อไป[10]
อย่างไรก็ตาม การเรียนรู้แบบสอนตัวเองก็ถูกนำมาใช้ในการสร้างแบบจำลองฝึกล่วงหน้าที่สามารถนำไปทำการเรียนรู้แบบถ่ายโอนที่ลดการใช้ชุดข้อมูลในการฝึกได้อย่างมาก ซึ่งก็จะสามารถลดต้นทุนในการเก็บและสร้างชุดข้อมูลในส่วนการสร้างฉลากกำกับ ซึ่งต้องใช้แรงงานมนุษย์อย่างมากได้ด้วย เนื่องจากวิธีนี้ไม่ต้องการข้อมูลติดฉลากกำกับ จึงได้มีการพัฒนาเอาไปใช้กับชุดข้อมูลที่ไม่ได้มีการจัดการให้เรียบร้อยได้อีกด้วย
อ้างอิง
แก้- ↑ Yarowsky, David (1995). "Unsupervised Word Sense Disambiguation Rivaling Supervised Methods". Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: Association for Computational Linguistics: 189–196. doi:10.3115/981658.981684. สืบค้นเมื่อ 1 November 2022.
- ↑ Doersch, Carl; Zisserman, Andrew (October 2017). "Multi-task Self-Supervised Visual Learning". 2017 IEEE International Conference on Computer Vision (ICCV). IEEE: 2070–2079. arXiv:1708.07860. doi:10.1109/iccv.2017.226. ISBN 978-1-5386-1032-9.
- ↑ Beyer, Lucas; Zhai, Xiaohua; Oliver, Avital; Kolesnikov, Alexander (October 2019). "S4L: Self-Supervised Semi-Supervised Learning". 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE: 1476–1485. arXiv:1905.03670. doi:10.1109/iccv.2019.00156. ISBN 978-1-7281-4803-8. S2CID 167209887.
- ↑ Doersch, Carl; Gupta, Abhinav; Efros, Alexei A. (December 2015). "Unsupervised Visual Representation Learning by Context Prediction". 2015 IEEE International Conference on Computer Vision (ICCV). IEEE: 1422–1430. arXiv:1505.05192. doi:10.1109/iccv.2015.167. ISBN 978-1-4673-8391-2. S2CID 9062671.
- ↑ Zheng, Xin; Wang, Yong; Wang, Guoyou; Liu, Jianguo (April 2018). "Fast and robust segmentation of white blood cell images by self-supervised learning". Micron. 107: 55–71. doi:10.1016/j.micron.2018.01.010. ISSN 0968-4328. PMID 29425969. S2CID 3796689.
- ↑ Gidaris, Spyros; Bursuc, Andrei; Komodakis, Nikos; Perez, Patrick Perez; Cord, Matthieu (October 2019). "Boosting Few-Shot Visual Learning With Self-Supervision". 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE: 8058–8067. arXiv:1906.05186. doi:10.1109/iccv.2019.00815. ISBN 978-1-7281-4803-8. S2CID 186206588.
- ↑ "Wav2vec: State-of-the-art speech recognition through self-supervision". ai.facebook.com (ภาษาอังกฤษ). สืบค้นเมื่อ 2021-06-09.
- ↑ Bouchard, Louis (2020-11-25). "What is Self-Supervised Learning? | Will machines ever be able to learn like humans?". Medium (ภาษาอังกฤษ). สืบค้นเมื่อ 2021-06-09.
- ↑ Self-supervised learning: The dark matter of intelligence
- ↑ 10.0 10.1 Self-Supervised Learning เทรนด์ใหม่ของ AI ที่มีความใกล้เคียงกับความฉลาดของมนุษย์?
- ↑ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog (ภาษาอังกฤษ). สืบค้นเมื่อ 2021-06-09.
- ↑ (Self-)Supervised Pre-training? Self-training? Which one to start with?
- ↑ Wilcox, Ethan; Qian, Peng; Futrell, Richard; Kohita, Ryosuke; Levy, Roger; Ballesteros, Miguel (2020). "Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics: 4640–4652. arXiv:2010.05725. doi:10.18653/v1/2020.emnlp-main.375.