|
(ก) คำแนะนำ
หน่วยสมรรถนะนี้เป็นการเลือกข้อมูล หรือส่วนของข้อมูลที่มีโครงสร้าง ที่รวมถึงฐานข้อมูลเชิงสัมพันธ์ที่จะนำมาใช้ในการวิเคราะห์ พร้อมทั้งเหตุผลและคำอธิบายประกอบทั้งส่วนที่ใช้และไม่ใช้ การนำออก (Export) รวมถึงการเตรียมข้อมูลเพื่อนำข้อมูลที่ไม่สมบูรณ์ออก ปรับคุณภาพของข้อมูล (Clean Data) โดยพิจารณาให้สอดคล้องสัมพันธ์กับเป้าหมายธุรกิจ คุณภาพของข้อมูล และข้อมูลด้านเทคนิค
(ข) คำอธิบายรายละเอียด
1. มีความเข้าใจข้อมูลที่มีของธุรกิจ โดยการระบุชนิดข้อมูลตามโครงสร้างข้อมูลได้ เช่น
1) ข้อมูลที่มีโครงสร้าง (Structured data)
2) ข้อมูลที่มีโครงสร้าง (Unstructured data)
ความแตกต่างระหว่าง Structured data และ Unstructured data มีดังนี้ Structured data จะหมายถึงข้อมูลที่จัดการปรับแต่งเพื่อให้มีโครงสร้างชัดเจน มีความหมาย สามารถใช้งานได้ทันที เช่นข้อมูลที่จัดเก็บใน Database (ผ่านการ Normalization หรือ Meaning extraction แล้ว) ส่วน ซึ่งตรงกันข้ามกับ Unstructured data
ข้อมูลที่มีโครงสร้าง (Structured) คือข้อมูลที่สามารถกำหนดเป็นรูปแบบของข้อมูล ที่ชัดเจนได้ เช่น Text, Numbers, money, percentages, Dates/Times, Booleans และ Email addresses เป็นต้น
2. การเข้าถึงข้อมูลที่มีของธุรกิจ เป็นการใช้เครื่องมือช่วยต่าง ๆ ในการเข้าถึงข้อมูลตามเทคโนโลยีที่เกี่ยวข้อง โดยการเข้าถึงอาจไม่ใช้เครื่องมือช่วยโดยเป็นการปฏิบัติตามขั้นตอนหรือคำสั่ง หรือใช้เครื่องมืออื่นช่วย ซึ่งผู้ที่จะเข้าถึงจะต้องได้รับสิทธิ์การเข้าถึงข้อมูลนั้น ๆ หรือมอบหมายให้ผู้มีสิทธิ์เข้าถึงข้อมูลนั้นเป็นผู้ดำเนินการแทน เช่น
1) เข้าถึงฐานข้อมูลเชิงสัมพันธ์ (Relational Databases) หรือ SQL (Structured Query Language) เช่น MySQL, Oracle, IMB DB2, Sybase, MS SQL Server, Microsoft Azure, Mariadb และ Postgresql เป็นต้น
2) เข้าถึงข้อมูลที่จัดเก็บในคลาวด์ (Cloud) ทั้งขององค์กรเอง และใช้บริการภายนอกองค์กร
3. การปรับคุณภาพข้อมูล (Clean Data) สำหรับข้อมูลที่มีโครงสร้างแบบฐานข้อมูลเชิงสัมพันธ์ (RDBMS) โดยใช้มาตรฐานคำสั่ง SQL หรือเครื่องมือช่วย (Tools) ที่เกี่ยวข้อง เช่น การลดจำนวนข้อมูลที่ผิดพลาด การแก้ไข เพิ่มเติมข้อมูล หรือเพิ่มจำนวนข้อมูลให้สมบูรณ์พร้อมใช้ เป็นต้น
4. คำสั่งและเครื่องมือพื้นฐานสำหรับการดำเนินการตามข้อ 2. และ 3. มีดังนี้
4.1 คำสั่งภาษา SQL (Structured Query Language)
ภาษา SQL ตามมาตรฐาน ANSI (American National Standards Institute) และเป็นที่ยอมรับของ ISO (International Organization for Standardization) ประกอบด้วย
1) ภาษานิยามข้อมูล (Data Definition Language: DDL) เป็นคำสั่งที่ใช้ในการสร้างฐานข้อมูล กำหนดโครงสร้างข้อมูลว่ามี Attribute ใด ชนิดของข้อมูล รวมทั้งการเปลี่ยนแปลงตาราง และการสร้างดัชนี เช่น CREATE, DROP และ ALTER
2) ภาษาจัดการข้อมูล (Data Manipulation Language: DML) เป็นคำสั่งที่ใช้ในการเรียกใช้ เพิ่ม ลบ และเปลี่ยนแปลงข้อมูลในตาราง เช่น SELECT, INSERT, UPDATE, DELETE โดยคำสั่ง SQL เป็นโครงสร้างภาษามาตราฐานเพื่อการจัดการบนระบบฐานข้อมูลเชิงสัมพันธ์
3) ภาษาควบคุมข้อมูล (Data Control Language: DCL) เป็นคำสั่งที่ใช้ในการกำหนดสิทธิการอนุญาติ หรือ ยกเลิก การเข้าถึงฐานข้อมูล เพื่อป้องกันความปลอดภัยของฐานข้อมูล คำสั่ง: GRANT, REVOKE
ระบบจัดการฐานข้อมูล (DBMS ) ที่สนับสนุนการใช้คำสั่ง SQL เช่น Oracle , DB2, MS-SQL, SAP Sybase ASE, Informix, MySQL และ MS-Access เป็นต้น
4) เครื่องมือช่วย (Tools) คือโปรแกรมที่ทำงานแทนชุดคำสั่ง SQL เพื่อช่วยให้การปฏิบัติงานง่ายและถูกต้องมากขึ้น โดยทั่วไประบบจัดการฐานข้อมูล (DBMS ) จะมีระบบเครื่องมือช่วยของตนอยู่ แต่ก็มีโปรแกรมเครื่องมือที่สร้างขึ้นมาใช้ร่วมกับระบบจัดการฐานข้อมูล (DBMS ) ต่าง ๆ เช่น SQLYog, MySQL Workbench, DBeaver, DataGrip, Navicat และ pgAdmin รวมถึงเครื่องสำหรับงานด้าน Data mining เช่น R, Python, Java, Weka, Rapidminer เป็นต้น
5) ข้อมูล Text File แบบมีโครงสร้างอย่างชัดเจน มีดังนี้
1) XML หรือ Extensible Markup Language คือภาษาที่ใช้ในการแสดงผลข้อมูล ซึ่งถูกออกแบบมาเพื่อเก็บข้อมูล ทั้งข้อมูลและโครงสร้างของข้อมูลนั้นๆ ไว้ด้วยกัน โดยภาษา XML มีโครงสร้างที่ประกอบด้วยแท็กเปิด และแท็กปิด เช่นเดียวกับภาษา HTML แต่ภาษา XML สามารถสร้างแท็กรวมทั้งกำหนดโครงสร้างของข้อมูลได้เอง ตามมาตรฐาน W3C (World Wide Web Consortium)
2) JSON ย่อมาจาก JavaScript Object Notation เป็น Standard format อย่างหนึ่งที่เป็น text และสามารถอ่านออกได้ด้วยตาเปล่า มาตรฐานของฟอร์แมต JSON ได้แก่ RFC 4627 มี Internet media type เป็น application/json และมีนามสกุลของไฟล์เป็น .json
3) Spreadsheet หรือแผ่นตารางทำการ เป็นลักษณะข้อมูลที่มีการจัดเรียงในลักษณะตารางสี่เหลี่ยม ที่ใช้ในการคำนวณเป็นหลักและสามารถใช้ในการเก็บข้อมูลได้
4) CSV (Comma-Separated Value) คือ Text File สำหรับเก็บข้อมูลแบบตาราง โดยใช้จุลภาค (,) แบ่งข้อมูลในแต่ละหลัก (Column) และใช้การเว้นบรรทัดแทนการแบ่งแถว (Row) ในกรณีที่ข้อมูลมีเครื่องหมายจุลภาค (,) อยู่ด้วย ให้คร่อมข้อมูลด้วยเครื่องหมาย “ ”
5) ข้อมูลอื่น ๆ ที่มาจากโปรแกรมหรือระบบอื่น ๆ ที่มีลักษณะใกล้เคียงกับภาษา XML เช่น KML หรือ Keyhole Markup Language ซึ่งเป็น ภาษา XML notation ที่ใช้สำหรับ geographic annotation and visualization ที่แสดงผลแบบแผนที่ 2 มิติ และ 3 มิติ ซึ่ง KML พัฒนาโดย Google Earth
6) Cloud database เป็นฐานข้อมูลแบบใหม่ ที่ถูกปรับปรุงและสร้างขึ้นบนระบบ virtualized แบบเดียวกับ hybrid cloud, public cloud หรือ private cloud โดยสามารถขยายขนาดเพิ่มขึ้น (Scale) หรือ ปรับแต่ง resource ได้ตลอดเวลาตามความต้องการของระบบและผู้ใช้งาน การเข้าถึงทรัพยากรใน Cloud สามารถใช้เครื่องมือช่วยเช่น Cloud Control Panel เป็นต้น
|