หน่วยสมรรถนะ

หน่วยสมรรถนะ

เลือกข้อมูลที่ไม่มีโครงสร้าง (Select Unstructured Data)

สาขาวิชาชีพอุตสาหกรรมดิจิทัล


รายละเอียดหน่วยสมรรถนะ


1. รหัสหน่วยสมรรถนะ ICT-CWYH-388B

2. ชื่อหน่วยสมรรถนะ เลือกข้อมูลที่ไม่มีโครงสร้าง (Select Unstructured Data)

3. ทบทวนครั้งที่ 1 / 2566

4. สร้างใหม่ ปรับปรุง

5. สำหรับชื่ออาชีพและรหัสอาชีพ (Occupational Classification)

วิศวกรรมข้อมูล (Data Engineer)



6. คำอธิบายหน่วยสมรรถนะ (Description of Unit of Competency)
ผู้ที่ผ่านสมรรถนะนี้จะมีความรู้เกี่ยวกับการแปลงข้อมูลที่ไม่มีโครงสร้าง สามารถเลือกข้อมูลทั้งหมดหรือบางส่วนของข้อมูล (Select Data) จากข้อมูลที่มีแบบไม่มีโครงสร้าง (Unstructured Data) ข้อมูลแบบ Text File แบบมีโครงสร้าง เช่น XML, JSON, Spreadsheet และ CSV เป็นต้น และข้อมูลดังกล่าวที่จัดเก็บในคลาวด์ (Cloud) ที่มีขององค์กร รวมถึงที่จัดเก็บในคลาวด์ (Cloud), Data Warehouse, Data Lake และข้อมูลที่จัดเก็บแบบอื่น เช่น Flat File, IoT Data, ฐานข้อมูลสำหรับการวิเคราะห์ หรือ OLAP (Online Analytical Processing) และฐานข้อมูลสำหรับ Big Data เช่น เทคโนโลยี ฮาดูป (Hadoop) และ แมปรีดิวซ์ (MapReduce), เทคโนโลยีไฮฟ (Hive), เทคโนโลยีสปาร์ค (Spark) และ NoSQL (Not Only SQL: Key-Value, Column-Family, Document และ Graph) รวมถึงข้อมูลที่อยู่บนเครือข่ายสังคมออนไลน์ (Social Network) เช่น ข้อความ รูป วีดิโอ ที่มีขององค์กร พร้อมทั้งเหตุผลและคำอธิบายประกอบทั้งส่วนที่ใช้และไม่ใช้ รวมถึงการเตรียมข้อมูลเพื่อนำข้อมูลที่ไม่สมบูรณ์ออก ปรับคุณภาพของข้อมูล (Clean Data)  เพิ่มเติม ซึ่งมีความสัมพันธ์สอดคล้องกับเป้าหมายธุรกิจ

7. สำหรับระดับคุณวุฒิ
1 2 3 4 5 6 7 8

8. กลุ่มอาชีพ (Sector)
สาขาวิชาชีพอุตสาหกรรมดิจิทัล สาขาวิทยาศาสตร์ข้อมูล  (Data Science)  

9. ชื่ออาชีพและรหัสอาชีพอื่นที่หน่วยสมรรถนะนี้สามารถใช้ได้ (ถ้ามี)
N/A

10. ข้อกำหนดหรือกฎระเบียบที่เกี่ยวข้อง (Licensing or Regulation Related) (ถ้ามี)
N/A

11. สมรรถนะย่อยและเกณฑ์การปฏิบัติงาน (Elements and Performance Criteria)
หน่วยสมรรถนะย่อย (EOC) เกณฑ์ในการปฏิบัติงาน (Performance Criteria) รหัส PC
(ตามเล่มมาตรฐาน)
รหัส PC
(จากระบบ)
70303.01 เข้าถึงข้อมูลที่มีของธุรกิจแบบไม่มีโครงสร้าง (Unstructured Data) 1. สามารถระบุแหล่งจัดเก็บข้อมูลขององค์กรได้ 179787
70303.01 เข้าถึงข้อมูลที่มีของธุรกิจแบบไม่มีโครงสร้าง (Unstructured Data) 2. ระบุวิธีการเข้าถึงข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) ได้ 179788
70303.01 เข้าถึงข้อมูลที่มีของธุรกิจแบบไม่มีโครงสร้าง (Unstructured Data) 3. ใช้เครื่องมือในการเข้าถึงข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) ได้ 179789
70303.02 เลือกข้อมูล (Select Data) ขององค์กรที่ต้องการใช้วิเคราะห์ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) 1. ระบุเงื่อนไขที่จำเป็นในการเลือกข้อมูลด้านคุณภาพข้อมูลได้ 179790
70303.02 เลือกข้อมูล (Select Data) ขององค์กรที่ต้องการใช้วิเคราะห์ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) 2. ระบุเงื่อนไขที่จำเป็นในการเลือกข้อมูลด้านการเลือกแบบจำลองได้ 179791
70303.02 เลือกข้อมูล (Select Data) ขององค์กรที่ต้องการใช้วิเคราะห์ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) 3. เลือกข้อมูลตามเงื่อนไขที่จำเป็นจากหลายแหล่งข้อมูลได้ 179792
70303.02 เลือกข้อมูล (Select Data) ขององค์กรที่ต้องการใช้วิเคราะห์ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) 4. สามารถใช้การสุ่มตัวอย่างเพื่อเลือกข้อมูลได้ 179793
70303.02 เลือกข้อมูล (Select Data) ขององค์กรที่ต้องการใช้วิเคราะห์ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) 5. สามารถรวบรวม หรือนำออกข้อมูลตามความต้องการได้ 179794
70303.03 ปรับคุณภาพข้อมูล (Clean Data) แบบไม่มีโครงสร้าง 1. ระบุคุณภาพข้อมูลที่ต้องการเพื่อการวิเคราะห์ได้ 179795
70303.03 ปรับคุณภาพข้อมูล (Clean Data) แบบไม่มีโครงสร้าง 2. ระบุความไม่สมบูรณ์ (Noise) ต่าง ๆ ของข้อมูลได้ 179796
70303.03 ปรับคุณภาพข้อมูล (Clean Data) แบบไม่มีโครงสร้าง 3. ใช้คำสั่ง หรือเครื่องมือเพื่อดำเนินการตรวจสอบความไม่สมบูรณ์ข้อมูลได้ 179797
70303.03 ปรับคุณภาพข้อมูล (Clean Data) แบบไม่มีโครงสร้าง 4. ใช้คำสั่ง หรือเครื่องมือเพื่อดำเนินการแก้ไข ปรับปรุงความไม่สมบูรณ์ข้อมูลได้ 179798
70303.03 ปรับคุณภาพข้อมูล (Clean Data) แบบไม่มีโครงสร้าง 5. สามารถใช้คำสั่ง หรือเครื่องมือเพื่อปรับแต่งข้อมูลที่มีลักษณะเฉพาะให้ตรงกับความต้องการได้ 179799

12. ความรู้และทักษะก่อนหน้าที่จำเป็น (Pre-requisite Skill & Knowledge)
N/A

13. ทักษะและความรู้ที่ต้องการ (Required Skills and Knowledge)

(ก) ความต้องการด้านทักษะ

1. สามารถใช้วิธีการวิเคราะห์และวิธีทางสถิติเพื่อช่วยเตรียมข้อมูลและเลือกข้อมูลได้

2. สามารถใช้เทคนิคและเครื่องมือสำหรับประมวลผลข้อมูลขนาดใหญ่ได้

3. สามารถใช้เทคนิคและเครื่องมือสำหรับประมวลผล SQL หรือ NoSQL หรือที่เกี่ยวข้องได้

(ข) ความต้องการด้านความรู้

1.เข้าใจธุรกิจและวิเคราะห์ข้อมูลให้สอดคล้องกับวัตถุประสงค์ธุรกิจ


14. หลักฐานที่ต้องการ (Evidence Guide)

(ก) หลักฐานการปฏิบัติงาน (Performance Evidence)

1. ใบรับรองการปฏิบัติงานจากสถานประกอบการ

(ข) หลักฐานความรู้ (Knowledge Evidence)

1. ใบรับรองการเข้ารับการฝึกอบรม

2. ใบประกาศนียบัตรวุฒิการศึกษา

 (ค) คำแนะนำในการประเมิน

1. ผู้ประเมินตรวจประเมินเกี่ยวกับการเลือกข้อมูลที่ไม่มีโครงสร้าง โดยพิจารณาจากร่องรอยหลักฐานที่เกี่ยวข้องทั้งหลักฐานการปฏิบัติงาน และหลักฐานความรู้

(ง) วิธีการประเมิน

1. พิจารณาตามหลักฐานการปฏิบัติงาน

2. พิจารณาตามหลักฐานความรู้


15. ขอบเขต (Range Statement)

(ก) คำแนะนำ

1. หน่วยสมรรถนะนี้เป็นการเลือกข้อมูล หรือส่วนของข้อมูลที่ไม่มีโครงสร้างที่ชัดเจนซึ่งในที่นี้หมายถึงข้อมูลที่ไม่มีโครงสร้าง (Unstructured) คือข้อมูลที่ไม่สามารถกำหนดเป็นรูปแบบของข้อมูล ที่ชัดเจนได้ จากแหล่งข้อมูลต่าง ๆ เช่น Cloud, Data Warehouse, Data Lake และ ข้อมูลจาก Social Media รวมถึงข้อมูลที่มีลักษณะเป็นระบบฐานข้อมูลที่ไม่ใช้ภาษา SQL หรือ NoSQL Database ซึ่งหมายความรวมถึงข้อมูลแบบ Semi-Structured เช่น Log ระบบเป็นต้น ซึ่งจะนำมาใช้ในการวิเคราะห์ พร้อมทั้งเหตุผลและคำอธิบายประกอบทั้งส่วนที่ใช้และไม่ใช้ รวมถึงการเตรียมข้อมูลเพื่อนำข้อมูลที่ไม่สมบูรณ์ออก ปรับคุณภาพของข้อมูล (Clean Data) เพิ่มเติม โดยพิจารณาให้สอดคล้องสัมพันธ์กับเป้าหมายธุรกิจ คุณภาพของข้อมูล และข้อมูลด้านเทคนิค 

 (ข) คำอธิบายรายละเอียด

1.    มีความเข้าใจข้อมูลที่มีของธุรกิจ โดยการระบุชนิดข้อมูลตามโครงสร้างขอมูลได้ เช่น

    1) ข้อมูลที่มีโครงสร้าง (Structured)

    2) ข้อมูลที่ไม่มีโครงสร้าง (Unstructured)

        ความแตกต่างระหว่าง Structured Data และ Unstructured Data มีดังนี้ Structured Data หมายถึงข้อมูลที่จัดการปรับแต่งเพื่อให้มีโครงสร้างชัดเจน มีความหมาย สามารถใช้งานได้ทันที เช่นข้อมูลที่จัดเก็บใน Database (ผ่านการ Normalization หรือ Meaning Extraction แล้ว) ส่วน ซึ่งตรงกันข้ามกับ Unstructured Data 

        ข้อมูลที่ไม่มีโครงสร้าง (Unstructured) คือข้อมูลที่ไม่สามารถกำหนดเป็นรูปแบบของข้อมูลที่ชัดเจนได้ เช่น Cloud Data, Data Warehouse, Data Lake และ ข้อมูลจาก Social Media รวมถึงข้อมูลที่มีลักษณะเป็น  ระบบฐานข้อมูลที่ไม่ใช้ภาษา SQL หรือ NoSQL Database ซึ่งสามารถรองรับข้อมูลแบบ Semi-Structured และ Unstructured ได้ รองรับการขยายตัวในแนวราบ (Horizontal Scaling) ได้แก่ Cassandra, Couchbase, Hbase, Mongodb เป็นต้น

2. การเข้าถึงข้อมูลที่มีของธุรกิจ เป็นการใช้เครื่องมือช่วยต่าง ๆ ในการเข้าถึงข้อมูลตามเทคโนโลยีที่เกี่ยวข้อง เช่น

    1) ฐานข้อมูลเชิงไม่สัมพันธ์ (Non-Relational Databases) หรือ NoSQL เช่น Mongodb, Apache’S, CouchDB, Hbase, Oracle NoSQL, Apache’S Cassandra และ Dbriak เป็นต้น    

    2) ข้อมูลที่จัดเก็บในคลาวด์ (Cloud)

    3) ข้อมูลจาก Data Warehouse เช่น OLAP (Online Analytical Processing), ETL (Extract, Transform, Load), OLTP (Online Transaction Processing)

    4) แหล่งข้อมูลขนาดใหญ่ (Data Lake) เช่น Hadoop

    5) แฟ้มข้อมูล (Flat Files) เช่น Transactions, Time-Series Data, Scientific Measurements

    6) ข้อมูลจากสื่อต่าง ๆ และ Social Network (World Wide Web และ Multimedia Databases) เช่น  Content, Video, Images, Audio และ Text Media เป็นต้น

    7) Spatial Databases เช่น แผนที่ (Maps) ที่ตั้งในระดับ Global หรือ Regional

    8) Time-Series Databases เช่น Stock Market หรือ Logged Activities

    9) ข้อมูลแบบ Text File แบบมีโครงสร้าง เช่น XML, JSON, Spreadsheet และ CSV เป็นต้น

3. Cloud Database เป็นฐานข้อมูลแบบใหม่ ที่ถูกปรับปรุงและสร้างขึ้นบนระบบ Virtualized แบบเดียวกับ Hybrid Cloud, Public Cloud หรือ Private Cloud โดยสามารถขยายขนาดเพิ่มขึ้น (Scale) หรือ ปรับแต่ง Resource ได้ตลอดเวลาตามความต้องการของระบบและผู้ใช้งาน การเข้าถึงทรัพยากรใน Cloud สามารถใช้เครื่องมือช่วยเช่น Cloud Control Panel เป็นต้น

4.  Data Warehouse (คลังข้อมูล) เป็นลักษณะของการสร้างฐานข้อมูล ที่เก็บข้อมูลที่แตกต่างกันจากหลายๆ แหล่ง ไว้ในรูปแบบและที่เดียวกัน มุ่งเน้นการเอา Information ออกมาจากข้อมูลเหล่านั้น ซึ่งอาจจะออกมาในรูปแบบของรายงานต่าง ๆ เพื่อมาช่วยในการประกอบการตัดสินใจเรื่องต่าง ๆ รวมถึงใช้เพื่อการวิเคราะห์ (ข้อมูลทั้งอดีตและปัจจุบัน)         

5.  Data Lake คือคลังข้อมูลขนาดใหญ่มหาศาล ที่ใช้เก็บข้อมูล Raw data หลากหลายรูปแบบทั้ง Structure, Unstructured หรือ semi-structure โดยข้อมูลที่เก็บจะยังไม่คำนึงถึงโครงสร้างหรือนิยามการใช้งาน โดยมีองค์ประกอบสำคัญดังนี้

        - การเคลื่อนย้ายข้อมูล ช่วยให้การนำเข้าข้อมูลที่ต้องการเป็นลักษณะเรียลไทม์ ข้อมูลจะถูกรวบรวมจากหลายแหล่งข้อมูล และไปสู่ Data Lake ในรูปแบบต้นฉบับ ซึ่งทำให้สามารถปรับขนาดข้อมูลเป็นขนาดที่ต้องการได้ ทำให้ประหยัดเวลาในการกำหนดโครงสร้างของข้อมูลสถิติมา และการแปลงข้อมูล

        - จัดเก็บและจัดทำแคตตาล็อกข้อมูลอย่างปลอดภัย ซึ่งการจัดเก็บข้อมูลเชิงสัมพันธ์ ทั้งจากฐานข้อมูลการปฏิบัติงาน และข้อมูลจากโปรแกรมหน่วยธุรกิจ รวมทั้งข้อมูลที่ไม่ใช่เชิงสัมพันธ์ ซึ่งรวมถึงข้อมูลจากโปรแกรมบนมือถือ อุปกรณ์ IoT และโซเชียลมีเดีย โดยข้อมูลจะต้องได้รับการปกป้องปลอดภัย

        - การวิเคราะห์ ช่วยให้ผู้คนในบทบาทต่าง ๆ ในองค์กร เช่น นักวิทยาศาสตร์ข้อมูล, นักพัฒนาข้อมูล และนักวิเคราะห์ทางธุรกิจ สามารถเข้าถึงข้อมูลด้วยเครื่องมือและเฟรมเวิร์กที่ต้องการได้ โดยจะประกอบด้วยเฟรมเวิร์กแบบโอเพนซอร์ส เช่น Apache Hadoop, Presto และ Apache Spark เป็นต้น

        - Machine Learning ช่วยให้องค์กรสามารถสร้างข้อมูลเชิงลึกประเภทต่าง ๆ ได้ ซึ่งรวมถึงการรายงานข้อมูลเชิงประวัติศาสตร์ และการจัดทำ Machine Learning ซึ่งมีการสร้างแบบจำลองเพื่อคาดการณ์ผลลัพธ์ที่น่าจะเกิดขึ้น และเสนอแนะการดำเนินการตามที่กำหนดเพื่อบรรลุผลลัพธ์ที่น่าพึงพอใจ



6.  Social Network Data คือข้อมูลที่เกิดจากการใช้งานสื่อสังคมออนไลน์ ต่าง ๆ เช่น Facebook, Twitter, Google+, LinkedIn, Line, Youtube และ Instagram (IG) เป็นต้น รูปแบบของข้อมูลจากสื่อสังคมออนไลน์ ต่าง ๆ เช่น ข้อความ รูปภาพ วีดิโอ เอกสารในรูปแบบต่าง ๆ ซึ่งแบ่งเป็นกลุ่มตามลักษณะของการนำมาใช้ดังนี้

          1) Weblogs หรือ Blogs คือ สื่อส่วนบุคคลบนอินเทอร์เน็ตที่ใช้เผยแพร่ข้อมูล ข่าวสาร ความรู้ ข้อคิดเห็น บันทึกส่วนตัว โดยสามารถแบ่งปันให้บุคคลอื่นๆ ผู้เขียนและผู้อ่านสามารถค้นหาย้อนหลังเพื่ออ่านและแก้ไขเพิ่มเติมได้ตลอดเวลา เช่น Exteen, Bloggang, Wordpress, Blogger และ Okanation เป็นต้น

          2) Social Networking หรือเครือข่ายทางสังคมในอินเทอร์เน็ต ซึ่งเป็นเครือข่ายทางสังคมที่ใช้สำหรับเชื่อมต่อระหว่างบุคคล กลุ่มบุคคล เพื่อให้เกิดเป็นกลุ่มสังคม (Social Community)  เพื่อร่วมกันแลกเปลี่ยนและแบ่งปันข้อมูลระหว่างกันทั้งด้านธุรกิจ การเมือง การศึกษา เช่น Facebook, Hi5, Ning, MySpace, Youmeo,  Google+, LinkedIn, Line และ Instagram (IG) เป็นต้น

          3) Micro Blogging และ Micro Sharing เป็นเว็บเซอร์วิสหรือเว็บไซต์ที่ให้บริการแก่บุคคลทั่วไป สำหรับให้ผู้ใช้บริการเขียนข้อความสั้นๆ ประมาณ 140 ตัวอักษร ที่เรียกว่า “Status” หรือ “Notice” เพื่อแสดงสถานะของตัวเองว่ากำลังทำอะไรอยู่ หรือแจ้งข่าวสารต่าง ๆ แก่กลุ่มเพื่อนในสังคมออนไลน์ (Online Social Network)  ซึ่งเป็นข้อความสั้นๆ ที่นิยมใช้กันอย่างแพร่หลายคือ Twitter

          4) Online Video เป็นเว็บไซต์ที่ให้บริการวิดีโอออนไลน์ ซึ่งปัจจุบันได้รับความนิยม ผู้ใช้สามารถเลือกชมเนื้อหาได้ตามความต้องการและยังสามารถเชื่อมโยงไปยังเว็บวิดีโออื่นๆ ที่เกี่ยวข้องได้จำนวนมากอีกด้วย เช่น  Youtube, MSN และ Yahoo เป็นต้น

          5) Photo Sharing เป็นเว็บไซต์ที่เน้นให้บริการฝากรูปภาพโดยผู้ใช้บริการสามารถอัพโหลดและดาวน์โหลดรูปภาพเพื่อนำมาใช้งานได้ ที่สำคัญนอกเหนือจากผู้ใช้บริการจะมีโอกาสแบ่งปันรูปภาพแล้ว ยังสามารถใช้เป็นพื้นที่เพื่อเสนอขายภาพที่ตนเองนำเข้าไปฝากได้อีกด้วย เช่น  Flickr, Photobucket, Photoshop, Express และ Zoom เป็นต้น

          6) Wikis เป็นเว็บไซต์ที่มีลักษณะเป็นแหล่งข้อมูลหรือความรู้ (Data/Knowledge) ซึ่งนักวิชาการ นักวิชาชีพหรือผู้เชี่ยวชาญเฉพาะทางด้านต่าง ๆ ทั้งการเมือง เศรษฐกิจ สังคม วัฒนธรรม สามารถเขียนหรือแก้ไขข้อมูลได้อย่างอิสระ เช่น Wikipedia และ Google Earth เป็นต้น

          7) Virtual Worlds คือการสร้างโลกจินตนาการโดยจำลองส่วนหนึ่งของชีวิตลงไป จัดเป็นสื่อสังคมออนไลน์ที่เน้นสื่อสารระหว่างกันบนอินเทอร์เน็ตในลักษณะโลกเสมือนจริง (Virtual Reality) เช่น Second life เป็นต้น

          8) Crowd Sourcing จากจากคำว่า Crowd และ Outsourcing เป็นหลักการขอความร่วมมือจากบุคคลในเครือข่ายสังคมออนไลน์ โดยสามารถจัดทำในรูปของเว็บไซต์ที่มีวัตถุประสงค์หลักเพื่อค้นหาคำตอบและวิธีการแก้ปัญหาต่าง ๆทั้งทางธุรกิจ การศึกษา  รวมทั้งการสื่อสาร  ทำให้เกิดความหลากหลายทางความคิดเพื่อนำ  ไปสู่การแก้ปัญหาที่มี เช่น Idea storm และ Mystarbucks Idea เป็นต้น

          9) Podcasting หรือ Podcast มาจากคำว่า “Pod” กับ “Broadcasting” ซึ่ง “POD” หรือ PersonalOn - Demand คือ อุปสงค์หรือความต้องการส่วนบุคคล ส่วน“Broadcasting” เป็นการนำสื่อต่าง ๆ มารวมกันในรูปของภาพและเสียง คือ การบันทึกภาพและเสียงแล้วนำมาไว้ในเว็บเพจ (Web Page) เพื่อเผยแพร่ให้บุคคลภายนอก (The public in general) ที่สนใจดาวน์โหลดเพื่อนำไปใช้งาน เช่น Dual Geek Podcast, Wiggly Podcast เป็นต้น

          10 Discuss / Review/ Opinion เป็นเว็บบอร์ดที่ผู้ใช้อินเทอร์เน็ตสามารถแสดงความคิดเห็น โดยอาจจะเกี่ยวกับ สินค้าหรือบริการ ประเด็นสาธารณะทางการเมือง เศรษฐกิจ สังคม เช่น Epinions, Moutshut, Yahoo!Answer, Pantip,Yelp เป็นต้น

7. การนำออก (Export) ข้อมูลจากแหล่งข้อมูลสามารถใช้เครื่องมือพื้นฐาน หรือโปรแกรมเสริมต่าง ๆ ตามประเภทและแหล่งข้อมูล ซึ่งอาจหมายถึงการใช้ API (Application Programming Interface)  ซึ่งเป็นโปรแกรมที่ทำให้สามารถแลกเปลี่ยน หรือได้ข้อมูลจากผู้ให้บริการข้อมูลต่าง ๆ เช่น Google และ Facebook เป็นต้น นอกจากนี้ยังรวมถึงการใช้วิธี Web Scraping หรือ Web Crawler ซึ่งเป็นวิธีการดึงข้อมูลจากหน้า Web page โดยวิเคราะห์จากลักษณะของภาษา Markup ในเว็บนั้น ทำให้สามารถดึงเฉพาะข้อมูลที่เราต้องการได้โดยอัตโนมัติ และรวมทั้งใช้คำสั่งพื้นฐานของระบบปฏิบัติการช่วย เช่น Linux Shell Script หรือ Bcp เป็นต้น

8.  การสกัดคุณสมบัติข้อมูล (Feature Extraction) คือการเปลี่ยนแปลงข้อมูลที่ไม่มีโครงสร้างชัดเจน ตามข้อ 2. ให้เป็นข้อมูลที่มีโครงสร้างชัดเจนที่สามารถนำมาวิเคราะห์ได้อย่างเหมาะสมกับเทคนิคแบบจำลองที่จะเลือกใช้ต่อไปได้ ซึ่งส่งผลต่อการปรับคุณภาพข้อมูล (Clean Data) การเพิ่มเติม ปรับปรุงรูปแบบให้เหมาะสม (Construct Data) และการบูรณาการข้อมูล (Integrate Data) สำหรับข้อมูลที่มีโครงสร้างแบบฐานข้อมูลเชิงไม่สัมพันธ์ (RDBMS) โดยใช้เครื่องมือช่วย (Tools) ที่เกี่ยวข้อง  

9. การปรับคุณภาพข้อมูล (Clean Data) การเพิ่มเติม ปรับปรุงรูปแบบให้เหมาะสม (Construct Data) และการบูรณาการข้อมูล (Integrate Data) เป็นการดำเนินการต่อข้อมูลที่ผ่านการสกัดคุณสมบัติข้อมูล (Feature Extraction) ที่เหมาะสมกับรูปแบบข้อมูลแล้ว โดยแบ่งได้ดังนี้

    1) เครื่องมืออย่างง่าย สำหรับข้อมูลที่มีจำนวนไม่มากนัก เช่น Spreadsheet 

    2) โปรแกรมสำหรับการดำเนินการวิเคราะห์ข้อมูล เช่น R, Matlab ที่รวมถึงไลบรารี่ที่จำเป็น เป็นต้น

    3) ภาษาโปรแกรมคอมพิวเตอร์ สำหรับการพัฒนาโปรแกรมเพื่อการดำเนินการ เช่น Python หรือ Java ที่รวมถึงไลบรารี่ที่จำเป็น

    4) โปรแกรมสำหรับการประมวลผลและนำเสนอข้อมูล เช่น Rapidminer, Weka, D3.js, Processing, Tableau, Raphael และ PowerBI เป็นต้น

    5) การบริการออนไลน์ด้านการจัดการข้อมูล เช่น Datawrapper, Google Visualisation API และ Google Charts ซึ่งรวมถึงการให้บริการแบบคลาวด์ เช่น AWS ของ Amazon, Google Cloud ของGoogle และ AZURE ของ Microsoft เป็นต้น

    6) โปรแกรมสำหรับ Big Data และ Data Lake เช่น Hadoop, Spark เป็นต้น


16. หน่วยสมรรถนะร่วม (ถ้ามี)
N/A

17. อุตสาหกรรมร่วม/กลุ่มอาชีพร่วม (ถ้ามี)
N/A

18. รายละเอียดกระบวนการและวิธีการประเมิน (Assessment Description and Procedure)

18.1 เครื่องมือประเมินการเข้าถึงข้อมูลที่มีของธุรกิจแบบไม่มีโครงสร้างตามข้อกำหนดมาตรฐาน

1. แบบฟอร์มประเมินผลการสาธิตการปฏิบัติงาน

2. ผลข้อสอบข้อเขียน

ดูรายละเอียดจากคู่มือประเมิน

18.2 เครื่องมือประเมินการเลือกข้อมูล (Select Data) ขององค์กรที่ต้องการใช้วิเคราะห์ข้อมูลไม่มีโครงสร้าง (Unstructured Data) ตามข้อกำหนดมาตรฐาน

1. แบบฟอร์มประเมินผลการสาธิตการปฏิบัติงาน

2. ผลข้อสอบข้อเขียน

ดูรายละเอียดจากคู่มือประเมิน

18.3 เครื่องมือประเมินการปรับคุณภาพข้อมูล (Clean Data) ที่ไม่มีโครงสร้างตามข้อกำหนดมาตรฐาน

1. แบบฟอร์มประเมินผลการสาธิตการปฏิบัติงาน

2. ผลข้อสอบข้อเขียน

ดูรายละเอียดจากคู่มือประเมิน



ยินดีต้อนรับ