|
(ก) คำแนะนำ
1. หน่วยสมรรถนะนี้เป็นการปรับปรุงรูปแบบให้เหมาะสม (Construct Data) และการบูรณาการข้อมูลเข้าด้วยกัน (Integrate Data) โดยพิจารณาให้สอดคล้องสัมพันธ์กับเป้าหมายธุรกิจ คุณภาพของข้อมูล และข้อมูลด้านเทคนิคต่าง ๆ
(ข) คำอธิบายรายละเอียด
1. มีความเข้าใจข้อมูลที่มีของธุรกิจ โดยการระบุชนิดข้อมูลตามโครงสร้างขอมูลได้ เช่น
1) ข้อมูลที่มีโครงสร้าง (Structured)
2) ข้อมูลที่ไม่มีโครงสร้าง (Unstructured)
ความแตกต่างระหว่าง Structured Data และ Unstructured Data มีดังนี้ Structured Data หมายถึงข้อมูลที่จัดการปรับแต่งเพื่อให้มีโครงสร้างชัดเจน มีความหมาย สามารถใช้งานได้ทันที เช่นข้อมูลที่จัดเก็บใน Database (ผ่านการ Normalization หรือ Meaning Extraction แล้ว) ส่วน ซึ่งตรงกันข้ามกับ Unstructured Data
ข้อมูลที่ไม่มีโครงสร้าง (Unstructured) คือข้อมูลที่ไม่สามารถกำหนดเป็นรูปแบบของข้อมูลที่ชัดเจนได้ เช่น Cloud Data, Data Warehouse, Data Lake และ ข้อมูลจาก Social Media รวมถึงข้อมูลที่มีลักษณะเป็น ระบบฐานข้อมูลที่ไม่ใช้ภาษา SQL หรือ NoSQL Database ซึ่งสามารถรองรับข้อมูลแบบ Semi-Structured และ Unstructured ได้ รองรับการขยายตัวในแนวราบ (Horizontal Scaling) ได้แก่ Cassandra, Couchbase, Hbase, Mongodb เป็นต้น
2.การเข้าถึงข้อมูลที่มีของธุรกิจ เป็นการใช้เครื่องมือช่วยต่าง ๆ ในการเข้าถึงข้อมูลตามเทคโนโลยีที่เกี่ยวข้อง เช่น
1) ฐานข้อมูลเชิงไม่สัมพันธ์ (Non-Relational Databases) หรือ NoSQL เช่น Mongodb, Apache’S, CouchDB, Hbase, Oracle NoSQL, Apache’S Cassandra และ Dbriak เป็นต้น
2) ข้อมูลที่จัดเก็บในคลาวด์ (Cloud)
3) ข้อมูลจาก Data Warehouse เช่น OLAP (Online Analytical Processing), ETL (Extract, Transform, Load), OLTP (Online Transaction Processing)
4) แหล่งข้อมูลขนาดใหญ่ (Data Lake) เช่น Hadoop
5) แฟ้มข้อมูล (Flat Files) เช่น Transactions, Time-Series Data, Scientific Measurements
6) ข้อมูลจากสื่อต่าง ๆ และ Social Network (World Wide Web และ Multimedia Databases) เช่น Content, Video, Images, Audio และ Text Media เป็นต้น
7) Spatial Databases เช่น แผนที่ (Maps) ที่ตั้งในระดับ Global หรือ Regional
8) Time-Series Databases เช่น Stock Market หรือ Logged Activities
3. Cloud Database เป็นฐานข้อมูลแบบใหม่ ที่ถูกปรับปรุงและสร้างขึ้นบนระบบ Virtualized แบบเดียวกับ Hybrid Cloud, Public Cloud หรือ Private Cloud โดยสามารถขยายขนาดเพิ่มขึ้น (Scale) หรือ ปรับแต่ง Resource ได้ตลอดเวลาตามความต้องการของระบบและผู้ใช้งาน การเข้าถึงทรัพยากรใน Cloud สามารถใช้เครื่องมือช่วยเช่น Cloud Control Panel เป็นต้น
4. Data Warehouse (คลังข้อมูล) เป็นลักษณะของการสร้างฐานข้อมูล ที่เก็บข้อมูลที่แตกต่างกันจากหลายๆ แหล่ง ไว้ในรูปแบบและที่เดียวกัน มุ่งเน้นการเอา Information ออกมาจากข้อมูลเหล่านั้น ซึ่งอาจจะออกมาในรูปแบบของรายงานต่าง ๆ เพื่อมาช่วยในการประกอบการตัดสินใจเรื่องต่าง ๆ รวมถึงใช้เพื่อการวิเคราะห์ (ข้อมูลทั้งอดีตและปัจจุบัน)
5. Data Lake คือคลังข้อมูลขนาดใหญ่มหาศาล ที่ใช้เก็บข้อมูล Raw data หลากหลายรูปแบบทั้ง Structure, Unstructured หรือ semi-structure โดยข้อมูลที่เก็บจะยังไม่คำนึงถึงโครงสร้างหรือนิยามการใช้งาน โดยมีองค์ประกอบสำคัญดังนี้
- การเคลื่อนย้ายข้อมูล ช่วยให้การนำเข้าข้อมูลที่ต้องการเป็นลักษณะเรียลไทม์ ข้อมูลจะถูกรวบรวมจากหลายแหล่งข้อมูล และไปสู่ Data Lake ในรูปแบบต้นฉบับ ซึ่งทำให้สามารถปรับขนาดข้อมูลเป็นขนาดที่ต้องการได้ ทำให้ประหยัดเวลาในการกำหนดโครงสร้างของข้อมูลสถิติมา และการแปลงข้อมูล
- จัดเก็บและจัดทำแคตตาล็อกข้อมูลอย่างปลอดภัย ซึ่งการจัดเก็บข้อมูลเชิงสัมพันธ์ ทั้งจากฐานข้อมูลการปฏิบัติงาน และข้อมูลจากโปรแกรมหน่วยธุรกิจ รวมทั้งข้อมูลที่ไม่ใช่เชิงสัมพันธ์ ซึ่งรวมถึงข้อมูลจากโปรแกรมบนมือถือ อุปกรณ์ IoT และโซเชียลมีเดีย โดยข้อมูลจะต้องได้รับการปกป้องปลอดภัย
- การวิเคราะห์ ช่วยให้ผู้คนในบทบาทต่าง ๆ ในองค์กร เช่น นักวิทยาศาสตร์ข้อมูล, นักพัฒนาข้อมูล และนักวิเคราะห์ทางธุรกิจ สามารถเข้าถึงข้อมูลด้วยเครื่องมือและเฟรมเวิร์กที่ต้องการได้ โดยจะประกอบด้วยเฟรมเวิร์กแบบโอเพนซอร์ส เช่น Apache Hadoop, Presto และ Apache Spark เป็นต้น
- Machine Learning ช่วยให้องค์กรสามารถสร้างข้อมูลเชิงลึกประเภทต่าง ๆ ได้ ซึ่งรวมถึงการรายงานข้อมูลเชิงประวัติศาสตร์ และการจัดทำ Machine Learning ซึ่งมีการสร้างแบบจำลองเพื่อคาดการณ์ผลลัพธ์ที่น่าจะเกิดขึ้น และเสนอแนะการดำเนินการตามที่กำหนดเพื่อบรรลุผลลัพธ์ที่น่าพึงพอใจ
6. Social Network Data คือข้อมูลที่เกิดจากการใช้งานสื่อสังคมออนไลน์ ต่าง ๆ เช่น Facebook, Twitter, Google+, LinkedIn, Line, Youtube และ Instagram (IG) เป็นต้น รูปแบบของข้อมูลจากสื่อสังคมออนไลน์ ต่าง ๆ เช่น ข้อความ รูปภาพ วีดิโอ เอกสารในรูปแบบต่าง ๆ ซึ่งแบ่งเป็นกลุ่มตามลักษณะของการนำมาใช้ดังนี้
1) Weblogs หรือ Blogs คือ สื่อส่วนบุคคลบนอินเทอร์เน็ตที่ใช้เผยแพร่ข้อมูล ข่าวสาร ความรู้ ข้อคิดเห็น บันทึกส่วนตัว โดยสามารถแบ่งปันให้บุคคลอื่นๆ ผู้เขียนและผู้อ่านสามารถค้นหาย้อนหลังเพื่ออ่านและแก้ไขเพิ่มเติมได้ตลอดเวลา เช่น Exteen, Bloggang, Wordpress, Blogger และ Okanation เป็นต้น
2) Social Networking หรือเครือข่ายทางสังคมในอินเทอร์เน็ต ซึ่งเป็นเครือข่ายทางสังคมที่ใช้สำหรับเชื่อมต่อระหว่างบุคคล กลุ่มบุคคล เพื่อให้เกิดเป็นกลุ่มสังคม (Social Community) เพื่อร่วมกันแลกเปลี่ยนและแบ่งปันข้อมูลระหว่างกันทั้งด้านธุรกิจ การเมือง การศึกษา เช่น Facebook, Hi5, Ning, MySpace, Youmeo, Google+, LinkedIn, Line และ Instagram (IG) เป็นต้น
3) Micro Blogging และ Micro Sharing เป็นเว็บเซอร์วิสหรือเว็บไซต์ที่ให้บริการแก่บุคคลทั่วไป สำหรับให้ผู้ใช้บริการเขียนข้อความสั้นๆ ประมาณ 140 ตัวอักษร ที่เรียกว่า “Status” หรือ “Notice” เพื่อแสดงสถานะของตัวเองว่ากำลังทำอะไรอยู่ หรือแจ้งข่าวสารต่าง ๆ แก่กลุ่มเพื่อนในสังคมออนไลน์ (Online Social Network) ซึ่งเป็นข้อความสั้นๆ ที่นิยมใช้กันอย่างแพร่หลายคือ Twitter
4) Online Video เป็นเว็บไซต์ที่ให้บริการวิดีโอออนไลน์ ซึ่งปัจจุบันได้รับความนิยม ผู้ใช้สามารถเลือกชมเนื้อหาได้ตามความต้องการและยังสามารถเชื่อมโยงไปยังเว็บวิดีโออื่นๆ ที่เกี่ยวข้องได้จำนวนมากอีกด้วย เช่น Youtube, MSN และ Yahoo เป็นต้น
5) Photo Sharing เป็นเว็บไซต์ที่เน้นให้บริการฝากรูปภาพโดยผู้ใช้บริการสามารถอัพโหลดและดาวน์โหลดรูปภาพเพื่อนำมาใช้งานได้ ที่สำคัญนอกเหนือจากผู้ใช้บริการจะมีโอกาสแบ่งปันรูปภาพแล้ว ยังสามารถใช้เป็นพื้นที่เพื่อเสนอขายภาพที่ตนเองนำเข้าไปฝากได้อีกด้วย เช่น Flickr, Photobucket, Photoshop, Express และ Zoom เป็นต้น
6) Wikis เป็นเว็บไซต์ที่มีลักษณะเป็นแหล่งข้อมูลหรือความรู้ (Data/Knowledge) ซึ่งนักวิชาการ นักวิชาชีพหรือผู้เชี่ยวชาญเฉพาะทางด้านต่าง ๆ ทั้งการเมือง เศรษฐกิจ สังคม วัฒนธรรม สามารถเขียนหรือแก้ไขข้อมูลได้อย่างอิสระ เช่น Wikipedia และ Google Earth เป็นต้น
7) Virtual Worlds คือการสร้างโลกจินตนาการโดยจำลองส่วนหนึ่งของชีวิตลงไป จัดเป็นสื่อสังคมออนไลน์ที่เน้นสื่อสารระหว่างกันบนอินเทอร์เน็ตในลักษณะโลกเสมือนจริง (Virtual Reality) เช่น Second life เป็นต้น
8) Crowd Sourcing จากจากคำว่า Crowd และ Outsourcing เป็นหลักการขอความร่วมมือจากบุคคลในเครือข่ายสังคมออนไลน์ โดยสามารถจัดทำในรูปของเว็บไซต์ที่มีวัตถุประสงค์หลักเพื่อค้นหาคำตอบและวิธีการแก้ปัญหาต่าง ๆทั้งทางธุรกิจ การศึกษา รวมทั้งการสื่อสาร ทำให้เกิดความหลากหลายทางความคิดเพื่อนำ ไปสู่การแก้ปัญหาที่มี เช่น Idea storm และ Mystarbucks Idea เป็นต้น
9) Podcasting หรือ Podcast มาจากคำว่า “Pod” กับ “Broadcasting” ซึ่ง “POD” หรือ PersonalOn - Demand คือ อุปสงค์หรือความต้องการส่วนบุคคล ส่วน“Broadcasting” เป็นการนำสื่อต่าง ๆ มารวมกันในรูปของภาพและเสียง คือ การบันทึกภาพและเสียงแล้วนำมาไว้ในเว็บเพจ (Web Page) เพื่อเผยแพร่ให้บุคคลภายนอก (The public in general) ที่สนใจดาวน์โหลดเพื่อนำไปใช้งาน เช่น Dual Geek Podcast, Wiggly Podcast เป็นต้น
10) Discuss / Review/ Opinion เป็นเว็บบอร์ดที่ผู้ใช้อินเทอร์เน็ตสามารถแสดงความคิดเห็น โดยอาจจะเกี่ยวกับ สินค้าหรือบริการ ประเด็นสาธารณะทางการเมือง เศรษฐกิจ สังคม เช่น Epinions, Moutshut, Yahoo!Answer, Pantip,Yelp เป็นต้น
7. ข้อมูล Text File แบบมีโครงสร้างอย่างชัดเจน มีดังนี้
1) XML หรือ Extensible Markup Language คือภาษาที่ใช้ในการแสดงผลข้อมูล ซึ่งถูกออกแบบมาเพื่อเก็บข้อมูล ทั้งข้อมูลและโครงสร้างของข้อมูลนั้นๆ ไว้ด้วยกัน โดยภาษา XML มีโครงสร้างที่ประกอบด้วยแท็กเปิด และแท็กปิด เช่นเดียวกับภาษา HTML แต่ภาษา XML สามารถสร้างแท็กรวมทั้งกำหนดโครงสร้างของข้อมูลได้เอง โดยมีโครงสร้างตามมาตรฐาน W3C (World Wide Web Consortium) โดย XML ไม่สามารถแสดงผลได้เอง ส่วนการแสดงผลก็จะใช้ภาษาเฉพาะซึ่งก็คือ XSL (Extensible Stylesheet Language) หรือหากต้องการแสดงผลที่ถูกต้อง จะต้องมีการใช้ร่วมกับภาษาอื่น เช่น HTML, JSP, PHP , ASP หรือภาษาอื่น ๆ ที่สนับสนุน นอกจากนี้ยังใช้ร่วมกับโปรแกรมประยุกต์อื่นได้ง่าย เช่น โปรแกรม DB2, Oracle, SAP เป็นต้น ซึ่ง XML จะมีนามสกุลเป็น .XML และสามารถสร้างขึ้นจากโปรแกรมประเภท Text Editor ใดๆ เช่น Notepad, Editplus , DreamWeaver, MS Word เป็นต้น
2) JSON ย่อมาจาก JavaScript Object Notation เป็น Standard format อย่างหนึ่งที่เป็น text และสามารถอ่านออกได้ด้วยตาเปล่า มาตรฐานของฟอร์แมต JSON ได้แก่ RFC 4627 มี Internet media type เป็น application/json และมีนามสกุลของไฟล์เป็น .json ใช้ในการสร้าง object ขึ้นมาเพื่อส่งข้อมูลระหว่าง application หรือ Applications Program Interface (API) โดย format จะมีรูปแบบเป็น คู่ Key-Value หรือเป็นแบบ Array และสามารถนำมาใช้แทน XML format ได้
3) Spreadsheet หรือแผ่นตารางทำการ เป็นลักษณะข้อมูลที่มีการจัดเรียงในลักษณะตารางสี่เหลี่ยม ที่ใช้ในการคำนวณเป็นหลักและสามารถใช้ในการเก็บข้อมูลได้
4) CSV (Comma-Separated Value) คือ Text File สำหรับเก็บข้อมูลแบบตาราง โดยใช้จุลภาค (,) แบ่งข้อมูลในแต่ละหลัก (Column) และใช้การเว้นบรรทัดแทนการแบ่งแถว (Row) ในกรณีที่ข้อมูลมีเครื่องหมายจุลภาค (,) อยู่ด้วย ให้คร่อมข้อมูลด้วยเครื่องหมาย “ ” อย่างไรก็ตาม ไฟล์ CSV นี้ยังไม่มีรูปแบบมาตรฐาน เพียงแต่ RFC 4180 ให้การรับรอง ไฟล์ CSV นี้มีการใช้งานอย่างแพร่หลาย และมีรูปแบบที่ใกล้เคียงกับ delimiter-separated formats
5) ข้อมูลอื่น ๆ ที่มาจากโปรแกรมหรือระบบอื่น ๆ ที่มีลักษณะใกล้เคียงกับภาษา XML เช่น KML หรือ Keyhole Markup Language ซึ่งเป็น ภาษา XML notation ที่ใช้สำหรับ geographic annotation and visualization ที่แสดงผลแบบแผนที่ 2 มิติ และ 3 มิติ ซึ่ง KML พัฒนาโดย Google Earth
6) การนำออก (Export) ข้อมูลจากแหล่งข้อมูลสามารถใช้เครื่องมือพื้นฐาน หรือโปรแกรมเสริมต่าง ๆ ตามประเภทและแหล่งข้อมูล ซึ่งอาจหมายถึงการใช้ API (Application Programming Interface) ซึ่งเป็นโปรแกรมที่ทำให้สามารถแลกเปลี่ยน หรือได้ข้อมูลจากผู้ให้บริการข้อมูลต่าง ๆ เช่น Google และ Facebook เป็นต้น นอกจากนี้ยังรวมถึงการใช้วิธี Web Scraping หรือ Web Crawler ซึ่งเป็นวิธีการดึงข้อมูลจากหน้า Web page โดยวิเคราะห์จากลักษณะของภาษา Markup ในเว็บนั้น ทำให้สามารถดึงเฉพาะข้อมูลที่เราต้องการได้โดยอัตโนมัติ และรวมทั้งใช้คำสั่งพื้นฐานของระบบปฏิบัติการช่วย เช่น Linux Shell Script หรือ Bcp เป็นต้น
7) การสกัดคุณสมบัติข้อมูล (Feature Extraction) คือการเปลี่ยนแปลงข้อมูลที่ไม่มีโครงสร้างชัดเจน ตามข้อ 2. ให้เป็นข้อมูลที่มีโครงสร้างชัดเจนที่สามารถนำมาวิเคราะห์ได้อย่างเหมาะสมกับเทคนิคแบบจำลองที่จะเลือกใช้ต่อไปได้ ซึ่งส่งผลต่อการปรับคุณภาพข้อมูล (Clean Data) การเพิ่มเติม ปรับปรุงรูปแบบให้เหมาะสม (Construct Data) และการบูรณาการข้อมูล (Integrate Data) สำหรับข้อมูลที่มีโครงสร้างแบบฐานข้อมูลเชิงไม่สัมพันธ์ (RDBMS) โดยใช้เครื่องมือช่วย (Tools) ที่เกี่ยวข้อง
8) การปรับคุณภาพข้อมูล (Clean Data) การเพิ่มเติม ปรับปรุงรูปแบบให้เหมาะสม (Construct Data) และการควบรวมข้อมูล (Integrate Data) เป็นการดำเนินการต่อข้อมูลที่ผ่านการสกัดคุณสมบัติข้อมูล (Feature Extraction) ที่เหมาะสมกับรูปแบบข้อมูลแล้ว โดยแบ่งได้ดังนี้
1) เครื่องมืออย่างง่าย สำหรับข้อมูลที่มีจำนวนไม่มากนัก เช่น Spreadsheet
2) โปรแกรมสำหรับการดำเนินการวิเคราะห์ข้อมูล เช่น R, Matlab ที่รวมถึงไลบรารี่ที่จำเป็น เป็นต้น
3) ภาษาโปรแกรมคอมพิวเตอร์ สำหรับการพัฒนาโปรแกรมเพื่อการดำเนินการ เช่น Python หรือ Java ที่รวมถึงไลบรารี่ที่จำเป็น
4) โปรแกรมสำหรับการประมวลผลและนำเสนอข้อมูล เช่น Rapidminer, Weka, D3.js, Processing, Tableau, Raphael และ PowerBI เป็นต้น
5) การบริการออนไลน์ด้านการจัดการข้อมูล เช่น Datawrapper, Google Visualisation API และ Google Charts ซึ่งรวมถึงการให้บริการแบบคลาวด์ เช่น AWS ของ Amazon, Google Cloud ของ Google และ AZURE ของ Microsoft เป็นต้น
6) โปรแกรมสำหรับ Big Data และ Data Lake เช่น Hadoop, Spark เป็นต้น
|