คลังข้อมูล (Data Warehouse)

Data Warehouse คลังข้อเก็บมูล หมายถึง คลังข้อมูลที่เป็นจุดรวมของข้อมูลสำหรับการวิเคราะห์ข้อมูล หรือฐานข้อมูลเชิงวิเคราะห์ ที่มักจะเป็นการวิเคราะห์แบบสัมพันธ์ที่สร้างมาจาก Data source สองแห่งหรือมากกว่านั้น เพื่อใช้ในการสืบค้นที่มีความซับซ้อนและการสร้างรายงาน หรือรวมข้อมูลจากหลายๆ ระบบ แล้วใช้เป็นข้อมูลดิบสำหรับออกรายงาน เช่น Power BI Dashboard หรือบน Tableau ในบางองค์กรก็เพื่อใช้ในการพัฒนาปัญญาประดิษฐ์ (AI)ซึ่งคลังข้อมูลเหล่านี้มักจะเป็นแหล่งข้อมูลสำคัญในการทำ Business Intelligence และ Machine Learning ข้อมูลจะถูกนำเข้ามาจากแหล่งข้อมูลต่างๆ เช่นฐานข้อมูลธุรกรรม และมีการอัพเดทข้อมูลอย่างต่อเนื่องเพื่อใช้ในการตัดสินใจในเวลาที่เหมาะสม
ภาพประกอบสำหรับสภาพแวดล้อม Data Warehouse
Dimensional Model แบบจำลองมิติ

ฐานข้อมูล(Database)ระบบปฏิบัติการได้รับการออกแบบให้เป็นมาตรฐานสำหรับการจัดเก็บและเรียกใช้อย่างมีประสิทธิภาพ แต่คลังข้อมูลมีโครงสร้างแตกต่างกันเล็กน้อย ก่อนที่เราจะดำเนินการกับโครงสร้างหรือสคีมาของคลังข้อมูล ให้เราพูดถึงองค์ประกอบที่สำคัญในแบบจำลอง Data warehouse
FACT TABLE
Fact Table คือตารางที่ประกอบด้วยข้อมูลทั้งหมดเกี่ยวกับธุรกิจหรือกระบวนการ ซึ่งตั้งอยู่ตรงกลางของรูปแบบ (schema) และรอบๆ ตารางมิติ (dimensions) ต่างๆ เช่น ตาราง fact อาจเกี่ยวกับการขาย, การสนับสนุนทางการตลาด, โครงการ หรืออื่นๆ สามารถปรับใช้เป็นตารางฐานข้อมูล SQL ได้ โดยมีคอลัมน์ประกอบด้วย ID keys ของ dimensions และ measures
แต่ละเรคคอร์ดในตาราง fact จะกำหนดระดับความละเอียดของตาราง fact ได้ สามารถมีหลายตาราง fact ใน data warehouse เดียวกัน ซึ่งกำหนดกระบวนการธุรกิจที่แตกต่างกันใน data warehouse เดียวกันได้ แต่ละตารางสามารถแบ่งปัน dimensions เช่นตำแหน่ง, วันที่ และอื่นๆ กันได้
DIMENSIONS
Dimensions คือ ตารางที่ใช้กลุ่มแบ่งประเภทของ facts และ measures ในตาราง fact ตัวอย่างเช่น ตาราง dimension ของ city region หรือ Location table จะอธิบายตำแหน่งของลูกค้าในการทำธุรกรรมการขาย ตัวอย่างอื่นๆ ของ dimensions คือ customer และ product ในธุรกิจการขาย Dimensions ยังช่วยให้ผู้ใช้สามารถตอบคำถามทางธุรกิจได้ เช่น เราได้รับกำไรเท่าไหร่จากผลิตภัณฑ์ X เดือนนี้เท่าไหร่? คำถามนี้ ผลิตภัณฑ์เป็น Dimension ของ Fact table การขาย
Dimensions นำเข้าเป็นตารางที่อ้างอิงจากตาราง fact โดยมี primary key และชื่อหรือคำอธิบายของ key เช่น product ID และชื่อผลิตภัณฑ์ แต่ยังสามารถกำหนดเพิ่มเติมใน dimension เพื่อแบ่งประเภทและสร้างชั้นเชิงโครงสร้างต่อไป เช่น หมวดหมู่และหมวดหมู่ย่อยของผลิตภัณฑ์
Primary key ของ dimension อาจแตกต่างจาก primary key ของตารางต้นฉบับ เมื่อตารางลูกค้าจากฐานข้อมูลหนึ่งถูกผสมกับตารางลูกค้าจากอีกฐานข้อมูลหนึ่ง นี่เรียกว่า surrogate key หรือแทนที่ primary key ต้นฉบับของตารางนั้นๆ
MEASURES
Measure คือ คุณสมบัติของตาราง Fact ที่อนุญาตให้มีการคำนวณได้ ซึ่งสามารถเป็นการรวม (SUM), ค่าเฉลี่ย(AVERAGE), นับ(COUNT), ค่าน้อยสุด(MIN), หรือค่าสูงสุด(MAX) ได้ เช่น คุณสามารถรวมยอดขายเพื่อหายอดขายรวมได้
Measure สามารถเป็น additive, non-additive, semi-additive, หรือ calculated ได้ ยอดขายเป็นตัวอย่างของ additive measure คุณสามารถรวมหรือหาค่าเฉลี่ยได้ แต่ราคาต่อหน่วยเป็น non-additive เช่น ยอดขายรวมถูกคำนวณจาก ราคาต่อหน่วยสินค้า + ภาษี
ระบบคลังข้อมูล (Data Warehousing System) ธนาคารแห่งประเทศไทย(BOT)
ระบบบริหารข้อมูล (Data Management System : DMS) Data Warehouse ของธนาคารแห่งประเทศไทย (ธปท.) ตัวอย่างการใช้ ระบบคลังข้อมูล(Data Warehouse) และประโยชน์ที่ได้รับจากการนำการจัดการคลังข้อมูล (Data Warehouse)
สรุป
Analyzing your data is a journey and it can be a long journey. การวิเคราะห์ข้อมูลอาจเป็นการเดินทางที่ยาวไกลและยาวนาน ขึ้นอยู่กับสถานะปัจจุบันของข้อมูลธุรกิจของคุณ การพัฒนาหรือสร้างคลังข้อมูลมาใช้ในองค์กรจะต้องมีการพิจารณาถึงองค์ประกอบที่จำเป็นในการสร้างที่เหมาะสมด้วย
หวังว่าผู้อ่านจะได้เรียนรู้เกี่ยวกับ Data Warehouse เบื้องต้น ที่ครอบคลุมความต้องการพื้นฐานของ Data Warehousing และหวังเป็นอย่างยิ่งว่าบทความนี้จะมีประโยชน์ หากคุณคิดว่าสิ่งเหล่านี้อาจมีแระโยชน์กับคนอื่นๆ กรุณาแชร์บทความนี้บนแพลตฟอร์มโซเชียลมีเดียของคุณด้วยนะครับ