Data Warehouse ความหมาย และองค์ประกอบสำคัญในการสร้างคลังข้อมูล

ฝากข่าว โดย :

คลังข้อมูล (Data Warehouse)

คลังข้อมูล (Data Warehouse)
ภาพประกอบสำหรับสภาพแวดล้อมของ Data Warehouse

Data Warehouse คลังข้อเก็บมูล หมายถึง คลังข้อมูลที่เป็นจุดรวมของข้อมูลสำหรับการวิเคราะห์ข้อมูล หรือฐานข้อมูลเชิงวิเคราะห์ ที่มักจะเป็นการวิเคราะห์แบบสัมพันธ์ที่สร้างมาจาก Data source สองแห่งหรือมากกว่านั้น เพื่อใช้ในการสืบค้นที่มีความซับซ้อนและการสร้างรายงาน หรือรวมข้อมูลจากหลายๆ ระบบ แล้วใช้เป็นข้อมูลดิบสำหรับออกรายงาน เช่น Power BI Dashboard หรือบน Tableau ในบางองค์กรก็เพื่อใช้ในการพัฒนาปัญญาประดิษฐ์ (AI)ซึ่งคลังข้อมูลเหล่านี้มักจะเป็นแหล่งข้อมูลสำคัญในการทำ Business Intelligence และ Machine Learning ข้อมูลจะถูกนำเข้ามาจากแหล่งข้อมูลต่างๆ เช่นฐานข้อมูลธุรกรรม และมีการอัพเดทข้อมูลอย่างต่อเนื่องเพื่อใช้ในการตัดสินใจในเวลาที่เหมาะสม
ภาพประกอบสำหรับสภาพแวดล้อม Data Warehouse

Dimensional Model แบบจำลองมิติ

Dimensional Model แบบจำลองมิติ
Snowflake Schema in Data Warehouse

ฐานข้อมูล(Database)ระบบปฏิบัติการได้รับการออกแบบให้เป็นมาตรฐานสำหรับการจัดเก็บและเรียกใช้อย่างมีประสิทธิภาพ แต่คลังข้อมูลมีโครงสร้างแตกต่างกันเล็กน้อย ก่อนที่เราจะดำเนินการกับโครงสร้างหรือสคีมาของคลังข้อมูล ให้เราพูดถึงองค์ประกอบที่สำคัญในแบบจำลอง Data warehouse

FACT TABLE

Fact Table คือตารางที่ประกอบด้วยข้อมูลทั้งหมดเกี่ยวกับธุรกิจหรือกระบวนการ ซึ่งตั้งอยู่ตรงกลางของรูปแบบ (schema) และรอบๆ ตารางมิติ (dimensions) ต่างๆ เช่น ตาราง fact อาจเกี่ยวกับการขาย, การสนับสนุนทางการตลาด, โครงการ หรืออื่นๆ สามารถปรับใช้เป็นตารางฐานข้อมูล SQL ได้ โดยมีคอลัมน์ประกอบด้วย ID keys ของ dimensions และ measures
แต่ละเรคคอร์ดในตาราง fact จะกำหนดระดับความละเอียดของตาราง fact ได้ สามารถมีหลายตาราง fact ใน data warehouse เดียวกัน ซึ่งกำหนดกระบวนการธุรกิจที่แตกต่างกันใน data warehouse เดียวกันได้ แต่ละตารางสามารถแบ่งปัน dimensions เช่นตำแหน่ง, วันที่ และอื่นๆ กันได้

DIMENSIONS

Dimensions คือ ตารางที่ใช้กลุ่มแบ่งประเภทของ facts และ measures ในตาราง fact ตัวอย่างเช่น ตาราง dimension ของ city region หรือ Location table จะอธิบายตำแหน่งของลูกค้าในการทำธุรกรรมการขาย ตัวอย่างอื่นๆ ของ dimensions คือ customer และ product ในธุรกิจการขาย Dimensions ยังช่วยให้ผู้ใช้สามารถตอบคำถามทางธุรกิจได้ เช่น เราได้รับกำไรเท่าไหร่จากผลิตภัณฑ์ X เดือนนี้เท่าไหร่? คำถามนี้ ผลิตภัณฑ์เป็น Dimension ของ Fact table การขาย

Dimensions นำเข้าเป็นตารางที่อ้างอิงจากตาราง fact โดยมี primary key และชื่อหรือคำอธิบายของ key เช่น product ID และชื่อผลิตภัณฑ์ แต่ยังสามารถกำหนดเพิ่มเติมใน dimension เพื่อแบ่งประเภทและสร้างชั้นเชิงโครงสร้างต่อไป เช่น หมวดหมู่และหมวดหมู่ย่อยของผลิตภัณฑ์

Primary key ของ dimension อาจแตกต่างจาก primary key ของตารางต้นฉบับ เมื่อตารางลูกค้าจากฐานข้อมูลหนึ่งถูกผสมกับตารางลูกค้าจากอีกฐานข้อมูลหนึ่ง นี่เรียกว่า surrogate key หรือแทนที่ primary key ต้นฉบับของตารางนั้นๆ

MEASURES

Measure คือ คุณสมบัติของตาราง Fact ที่อนุญาตให้มีการคำนวณได้ ซึ่งสามารถเป็นการรวม (SUM), ค่าเฉลี่ย(AVERAGE), นับ(COUNT), ค่าน้อยสุด(MIN), หรือค่าสูงสุด(MAX) ได้ เช่น คุณสามารถรวมยอดขายเพื่อหายอดขายรวมได้

Measure สามารถเป็น additive, non-additive, semi-additive, หรือ calculated ได้ ยอดขายเป็นตัวอย่างของ additive measure คุณสามารถรวมหรือหาค่าเฉลี่ยได้ แต่ราคาต่อหน่วยเป็น non-additive  เช่น ยอดขายรวมถูกคำนวณจาก ราคาต่อหน่วยสินค้า + ภาษี

ระบบคลังข้อมูล (Data Warehousing System) ธนาคารแห่งประเทศไทย(BOT)

ระบบบริหารข้อมูล (Data Management System : DMS) Data Warehouse ของธนาคารแห่งประเทศไทย (ธปท.) ตัวอย่างการใช้ ระบบคลังข้อมูล(Data Warehouse) และประโยชน์ที่ได้รับจากการนำการจัดการคลังข้อมูล (Data Warehouse)

Data Warehousing System

สรุป

Analyzing your data is a journey and it can be a long journey. การวิเคราะห์ข้อมูลอาจเป็นการเดินทางที่ยาวไกลและยาวนาน ขึ้นอยู่กับสถานะปัจจุบันของข้อมูลธุรกิจของคุณ การพัฒนาหรือสร้างคลังข้อมูลมาใช้ในองค์กรจะต้องมีการพิจารณาถึงองค์ประกอบที่จำเป็นในการสร้างที่เหมาะสมด้วย

หวังว่าผู้อ่านจะได้เรียนรู้เกี่ยวกับ Data Warehouse เบื้องต้น ที่ครอบคลุมความต้องการพื้นฐานของ Data Warehousing และหวังเป็นอย่างยิ่งว่าบทความนี้จะมีประโยชน์  หากคุณคิดว่าสิ่งเหล่านี้อาจมีแระโยชน์กับคนอื่นๆ กรุณาแชร์บทความนี้บนแพลตฟอร์มโซเชียลมีเดียของคุณด้วยนะครับ