การหาความสัมพันธ์ของข้อมูลผ่านการสังเกตด้วยสายตา แอปพลิเคชัน Number

ความสำคัญของข้อมูลในยุคปัจจุบัน

ในยุคปัจจุบัน ข้อมูลเกิดขึ้นอยู่ตลอดเวลา ไม่ว่าจะเป็นข้อมูลจากการใช้โทรศัพท์มือถือ การค้นหาข้อมูลบนอินเทอร์เน็ต การซื้อสินค้าออนไลน์ การซื้อขายอสังหาริมทรัพย์ หรือแม้แต่ข้อมูลในโรงเรียน เช่น คะแนนสอบ เวลาเข้าเรียน และผลการทำกิจกรรมต่าง ๆ หากเราสามารถจัดการ วิเคราะห์ และแปลความหมายข้อมูลเหล่านี้ได้อย่างถูกต้อง ข้อมูลก็จะกลายเป็นเครื่องมือสำคัญที่ช่วยแก้ปัญหาและพัฒนางานต่าง ๆ ให้มีประสิทธิภาพมากขึ้น

ในบทเรียนที่เกี่ยวข้องกับข้อมูล เช่น รายวิชาที่เกี่ยวข้องกับ Data Science เมื่อได้ข้อมูลที่พร้อมใช้งานแล้ว ลําดับต่อไปที่ควรกระทําคือการสํารวจข้อมูลเบื้องต้น ซึ่งเป็นขั้นตอนที่จะทําให้เรามีความเข้าใจเกี่ยวกับพฤติกรรมของข้อมูลมากขึ้น และเป็นแนวทางในการเลือกใช้เทคนิคต่าง ๆ ในการวิเคราะห์ข้อมูลในขั้นตอนถัดไป

เนื้อหาในครั้งนี้จะเป็นการศึกษาความสัมพันธ์ของข้อมูล โดยใช้แนวคิดการตรวจสอบความสัมพันธ์ในลักษณะเดียวกับการหาค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน (Pearson Correlation) ซึ่งเป็นวิธีที่ใช้พิจารณาความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรสองตัว โดยสามารถสังเกตได้จากทิศทางการเปลี่ยนแปลงของข้อมูล

กล่าวคือ หากตัวแปรตัวหนึ่งมีค่าเพิ่มขึ้น และตัวแปรอีกตัวหนึ่งมีค่าเพิ่มขึ้นตามไปด้วย แสดงว่าตัวแปรทั้งสองมีความสัมพันธ์ในทิศทางเดียวกัน หรือมีความสัมพันธ์เชิงบวก ในทางตรงกันข้าม หากตัวแปรตัวหนึ่งมีค่าเพิ่มขึ้น แต่อีกตัวแปรหนึ่งมีค่าลดลง แสดงว่าตัวแปรทั้งสองมีความสัมพันธ์ในทิศทางตรงกันข้าม หรือมีความสัมพันธ์เชิงลบ

อย่างไรก็ตาม การพิจารณาความสัมพันธ์ในลักษณะนี้สามารถบอกได้เพียงแนวโน้มและทิศทางของข้อมูลเท่านั้น ไม่ได้หมายความว่าตัวแปรหนึ่งเป็นสาเหตุที่ทำให้อีกตัวแปรหนึ่งเปลี่ยนแปลงโดยตรง ดังนั้น ผู้เรียนจึงต้องใช้กระบวนการสังเกต ตั้งคำถาม วิเคราะห์ข้อมูล และลงมือตรวจสอบด้วยตนเอง เพื่อฝึกทักษะการคิดเชิงวิเคราะห์และการใช้ข้อมูลอย่างมีเหตุผลในการอธิบายความสัมพันธ์ระหว่างตัวแปรต่าง ๆ

วัตถุประสงค์ในการจัดการเรียนรู้

  1. ผู้เรียนสามารถสังเกตและอธิบายความสัมพันธ์ของตัวแปรจากข้อมูลที่นำเสนอในรูปแบบแผนภูมิหรือกราฟได้
  2. ผู้เรียนสามารถวิเคราะห์ทิศทางความสัมพันธ์ของข้อมูล เช่น ความสัมพันธ์เชิงบวก ความสัมพันธ์เชิงลบ หรือไม่มีความสัมพันธ์ที่ชัดเจนได้

ขั้นตอนการจัดการเรียนการสอน

ผู้สอนเกริ่นนำเข้าสู่บทเรียน “นักเรียนคิดว่า บ้านหรือที่พักอาศัยที่มีราคาสูงนั้น ควรมีลักษณะอย่างไร“

แนวทางการตอบ : ลักษณะบ้านที่อยู่ใกล้ตัวเมือง, ความสวยงามของบ้าน, อัตราส่วนพื้นที่หรือขนาดของบ้าน, อยู่ติดแม่น้ำ, อยู่ติดการคมนาคม, อายุของบ้านหลังนั้น, ระยะห่างจากถนนหลัก เป็นต้น

ซึ่งแอปพลิเคชันที่น่าสนใจสำหรับการจัดกิจกรรมการเรียนการสอนในครั้งนี้ คือ แอปพลิเคชัน "Numbers"

Numbers คือแอปพลิเคชันสำหรับสร้างและจัดการ ตารางคำนวณ (Spreadsheet) ของ Apple ใช้สำหรับงาน เช่น

  • ทำตารางคะแนน
  • คำนวณผลรวม ค่าเฉลี่ย เปอร์เซ็นต์
  • สร้างบัญชีรายรับ–รายจ่าย
  • ทำกราฟจากข้อมูล
  • จัดตารางแผนงานหรือเช็กลิสต์
  • วิเคราะห์ข้อมูลเบื้องต้น

จุดเด่นของ Numbers คือใช้งานง่าย หน้าตาสวยงาม เหมาะกับ iPad, iPhone และ Mac สามารถใส่รูปภาพ กราฟ ตาราง และจัดหน้าเอกสารให้นำเสนอได้สวยกว่าสเปรดชีตทั่วไป

ผู้เรียนจะได้พิสูจน์สมมติฐานของตนเองโดยใช้ข้อมูลจริงประกอบการตัดสินใจ ผ่านการวิเคราะห์ชุดข้อมูลที่ชื่อว่า "Boston Dataset" ซึ่งเป็นชุดข้อมูลที่นิยมใช้ในการฝึกวิเคราะห์ข้อมูลและการเรียนรู้ของเครื่อง (Machine Learning) โดยข้อมูลชุดนี้มาจากการสำรวจพื้นที่ต่าง ๆ ในเมืองบอสตัน รัฐแมสซาชูเซตส์ ประเทศสหรัฐอเมริกา และมักถูกนำมาใช้เป็นกรณีศึกษาในการวิเคราะห์ปัจจัยต่าง ๆ ที่อาจมีความสัมพันธ์กับราคาบ้านในแต่ละพื้นที่

ในกิจกรรมนี้ ผู้สอนจะอธิบายความหมายของแต่ละคอลัมน์ในชุดข้อมูล เพื่อให้ผู้เรียนเข้าใจลักษณะของตัวแปรต่าง ๆ จากนั้นผู้เรียนจะเลือกตัวแปรที่ตนเองสนใจหรือคาดว่าจะมีความสัมพันธ์กัน แล้วนำข้อมูลไปทดลองพล็อตกราฟเพื่อสังเกตแนวโน้มและทิศทางของความสัมพันธ์ เช่น ความสัมพันธ์เชิงบวก ความสัมพันธ์เชิงลบ หรือความสัมพันธ์ที่ไม่ชัดเจน ทั้งนี้ เพื่อให้ผู้เรียนได้ฝึกการตั้งสมมติฐาน การใช้ข้อมูลจริงในการตรวจสอบ และการตัดสินใจจากหลักฐานเชิงข้อมูลอย่างมีเหตุผล

โดยแต่ละคอลัมน์มีความหมายดังต่อไปนี้

crim : อัตราการเกิดอาชญากรรมต่อประชากรในพื้นที่

zn : สัดส่วนพื้นที่อยู่อาศัยที่เป็นโซนบ้านขนาดใหญ่ (มากกว่า 25,000 ตารางฟุต)

indus : สัดส่วนพื้นที่ธุรกิจที่ไม่ใช่ค้าปลีก

chas : อยู่ติดแม่น้ำ Charles หรือไม่ (1 หมายถึงติดแม่น้ำ, 0 หมายถึงไม่ติดแม่น้ำ)

nox : ระดับมลพิษทางอากาศ (ไนโตรเจนออกไซด์)

rm : จำนวนห้องเฉลี่ยต่อบ้าน

age : สัดส่วนบ้านที่สร้างก่อนปี 1940

dis : ระยะทางไปยังศูนย์กลางการจ้างงาน

rad : การเข้าถึงทางหลวงหลัก (index)

tax : อัตราภาษีทรัพย์สินต่อ 10,000$

ptratio : อัตราส่วนนักเรียนต่อครู

b : ตัวแปรที่เกี่ยวกับสัดส่วนประชากรผิวดำ (ใช้สูตรเฉพาะ)

lstat : เปอร์เซ็นต์ประชากรที่มีฐานะต่ำ

medv : ราคาบ้านเฉลี่ย (หน่วย: $1000) ซึ่งจะเป็นตัวแปรเป้าหมาย (target) ของเราในครั้งนี้

การใช้งานแอปพลิเคชัน Numbers

เมื่อเตรียมพร้อมชุดข้อมูลแล้ว ขั้นตอนต่อไปคือ การเปิดไฟล์ข้อมูลนั้นด้วยแอปพลิเคชัน “Numbers”

 

เราจะพบกับตารางข้อมูลจำนวน 14 คอลัมน์ และข้อมูลจำนวน 506 แถว

สังเกตเห็นได้ว่า ข้อมูลตอนนี้เป็นข้อมูลดิบเท่านั้น เราจะเริ่มต้นขั้นตอนแรกด้วยการเรียงลำดับ คอลัมน์ ”medv” หรือหมายถึงคอลัมน์ "ราคาบ้านเฉลี่ย" ซึ่งจะหน่วยเป็น 1,000 ดอลลาร์สหรัฐ ซึ่งจะเป็น ตัวแปรเป้าหมายในการหาความสัมพันธ์ในครั้งนี้ โดยจะ "เรียงจากน้อยไปมาก"

เริ่มจากการเลือกปุ่ม “แก้ไข” มุมบนขวา 

เลือกคอลัมน์ที่ “N” ซึ่งตรงกับข้อมูล “medv” พร้อมเลื่อนเมนูไปทางขวา

เลือกเครื่องมือ “การทำงานคอลัมน์…“

ใช้ตัวเลือก "เรียงจากน้อยไปมาก" 

สังเกตได้ว่า ข้อมูลในตอนนี้จะถูกเรียงตามมูลค่าของตัวบ้าน (medv)

ขั้นตอนต่อไปคือการ Plot Graph ออกมา เพื่อมองหาความสัมพันธ์ของข้อมูลด้วยสายตาของผู้เรียนเอง

แอปพลิเคชัน "Numbers" จะมีแผนภูมิมากมายให้ผู้ใช้งานได้เลือกใช้ เช่น แผนภูมิวงกลม, แผนภูมิแท่ง, แผนภูมิกระจาย เป็นต้น และยังมีทั้งรูปแบบ 2 มิติ และ 3 มิติ โดยมีตัวเลือกสีที่หลากหลายให้เลือกใช้งานอีกด้วย 

ในครั้งนี้ เราจะเริ่มจากการทดลองใช้ แผนภูมิเส้น

หลังจากนั้นให้เลือก เพิ่มตัวแปรอย่างน้อยจำนวน 2 คอลัมน์ โดยมีคอลัมน์ "medv" อยู่ด้วยในแผนภูมิ เพื่อเปรียบเทียบกับข้อมูลราคาบ้านโดยเฉลี่ย

เมื่อเลือกคอลัมน์ทั้งสองได้แล้ว จะพบว่าแผนภูมิเส้นของเรานั้น จะมีความสอดคล้องกันอยู่ลักษณะหนึ่ง นั่นก็คือ เมื่อคอลัมน์ "medv" หรือราคาบ้านโดยเฉลี่ยนั้นยิ่งสูงขึ้นเท่าไร ค่าของคอลัมน์ lstat หรือเปอร์เซ็นต์ของประชากรที่มีฐานะต่ำก็ยิ่งลดลงเท่านั้น

ผู้สอนสามารถให้อิสระแก่นักเรียนได้ลองเลือกใช้ แผนภูมิต่าง ๆ เพื่อให้นักเรียนนั้นเกิดการตั้งคำถามถึงความแตกต่างของแผนภูมิในแต่ละลักษณะ

เมื่อนักเรียนได้ลองผิดลองถูกในการใช้งานแผนภูมิรูปแบบต่าง ๆ แล้ว ครูผู้สอนจึงควรแนะนำเทคนิคการใช้งานแผนภูมิรูปแบบต่าง ๆ ซึ่งแผนภูมิที่เหมาะกับการหาความสัมพันธ์ของข้อมูลที่สุดนั้นคือ "แผนภูมิกระจาย" หรือเรียกว่า "Scatter Plot"

 

กิจกรรมการเรียนรู้ในครั้งนี้ช่วยให้ผู้เรียนเห็นว่า “ข้อมูล” ไม่ได้เป็นเพียงตัวเลขในตารางเท่านั้น แต่สามารถนำมาใช้ตั้งคำถาม พิสูจน์สมมติฐาน และอธิบายความสัมพันธ์ของสิ่งต่าง ๆ ได้อย่างมีเหตุผล ผ่านการใช้ชุดข้อมูลจริงและการสร้างกราฟด้วยแอปพลิเคชัน Numbers ผู้เรียนจะได้ฝึกเลือกใช้แผนภูมิที่เหมาะสม โดยเฉพาะแผนภูมิกระจายหรือ Scatter Plot เพื่อสังเกตแนวโน้มของข้อมูล เช่น ความสัมพันธ์เชิงบวก ความสัมพันธ์เชิงลบ หรือความสัมพันธ์ที่ไม่ชัดเจน ทั้งนี้ สิ่งสำคัญคือผู้เรียนต้องเข้าใจว่า “ความสัมพันธ์” ไม่ได้หมายถึง “สาเหตุ” เสมอไป แต่เป็นจุดเริ่มต้นของการคิด วิเคราะห์ และตรวจสอบข้อมูลอย่างรอบคอบ ซึ่งเป็นทักษะสำคัญของการเรียนรู้ด้าน Data Science และการใช้ข้อมูลประกอบการตัดสินใจในโลกยุคปัจจุบัน

0 replies