๓. การหาข้อสรุปเกี่ยวกับลักษณะต่างๆ ของข้อมูล (Summarization)
ข้อมูลแต่ละชุดที่เก็บรวบรวมมาได้ อาจมีลักษณะการแจกแจงความถี่แตกต่างกันไปดังได้กล่าวแล้วในข้อ ๒ ในการวิเคราะห์ข้อมูล เราจำเป็นต้องศึกษาอย่างละเอียดละออว่า ข้อมูลชุดนั้นๆ บอกอะไรแก่เราบ้าง เช่น สมมุติว่า มีข้อมูลเกี่ยวกับรายได้ต่อปีของคนจำนวนหนึ่ง ซึ่งเป็นตัวอย่างของประชากรทั้งประเทศ สิ่งต่างๆ ที่อาจต้องการทราบก็คือ ประชากรมีรายได้ต่อปีเฉลี่ยคนละเท่าไร รายได้ของคนมั่งมี และคนยากจนแตกต่างกันมากหรือไม่ และถ้าคนส่วนใหญ่ค่อนข้างยากจน คนเหล่านี้มีมากเพียงไร ค่าเหล่านี้คือ ค่าซึ่งบอกลักษณะต่างๆ ของข้อมูล ซึ่งเป็นค่าสถิติอย่างหนึ่ง และสามารถคำนวณหาได้
อันที่จริงค่าต่างๆ เหล่านี้ พอจะทราบได้อย่างคร่าวๆ จากลักษณะการแจกแจงความถี่ของข้อมูล สมมุติว่า รูปที่ ๘ ได้จากการแจกแจงความถี่ของรายได้ต่อปีของประชากรตามที่กล่าวข้างต้น สิ่งที่ทราบได้อย่างคร่าวๆ จากรูปดังกล่าวก็คือ ประชากรที่มีรายได้ปานกลางค่อนไปทางข้างต่ำมีจำนวนมาก ส่วนประชากรที่มีรายได้ต่ำมาก หรือสูงมากมีจำนวนน้อย นอกจากนั้นช่องว่างระหว่างคนร่ำรวย และคนยากจนกว้างมาก ทั้งนี้เพราะปลายทั้งสองข้างของรูปโค้งห่างกันมาก อย่างไรก็ตามในทางสถิติ ข้อสรุปที่มิใช่ตัวเลขมีความหมายน้อย และไม่สามารถจะนำไปใช้ประโยชน์ในขั้นต่อไปได้ ดังนั้น ข้อสรุปทั้งหลายาของข้อมูลจึงต้องแสดงออกเป็นตัวเลข
เนื่องจากการแจกแจงความถี่ของข้อมูลที่พบส่วนมาก มีลักษณะเป็นโค้งรูประฆัง กล่าวคือ ตรงกลางป่อง และโค้งจะลาดลงทั้งสองข้าง ดังนั้นการหาค่าที่บอกลักษณะสำคัญของข้อมูลที่มีการกระจายลักษณะนี้ ได้แก่ การหาค่ากลาง และการหาค่าการกระจายของข้อมูล ซึ่งจะได้กล่าวเป็นเรื่องๆ ต่อไป
๓.๑ การหาค่ากลางของข้อมูล
ค่ากลางของข้อมูลซึ่งมีที่ใช้มากได้แก่ มัชฌิมเลขคณิต (Arithmetic Mean) มัธยฐาน (Median) และฐานนิยม (Mode)
ก) มัชฌิมเลขคณิตของข้อมูลชุดใดๆ คือ ค่าเฉลี่ยของข้อมูลชุดนั้น ซึ่งอาจเขียนให้อยู่ในรูปสูตรได้ดังนี้
มัชฌิมเลขคณิต = ผลบวกของทุกค่าของข้อมูล/จำนวนข้อมูล
ข) มัธยฐานของข้อมูลชุดใดๆ คือ คะแนนหรือค่า ณ ตำแหน่งกึ่งกลางของข้อมูลชุดนั้น ซึ่งข้อมูลทั้งชุดได้รับการเรียงลำดับแล้ว
ค) ฐานนิยมของข้อมูลชุดใดๆ คือ คะแนนหรือค่าที่มีความถี่สูงสุด หรือซ้ำกันมากที่สุดของข้อมูลชุดนั้น
ตัวอย่าง จงหามัชฌิมเลขคณิต มัธยฐาน และฐานนิยมของข้อมูลต่อไปนี้ ๗ ๗ ๘ ๙ ๑๓ ๑๓ ๑๓
มัชฌิมเลขคณิต = ผลบวกของทุกค่าของข้อมูล/จำนวนข้อมูล
= (๗ + ๗ + ๘ + ๙ + ๑๓ + ๑๓ + ๑๓)/๗
= ๑๐
มัธยฐาน = ๙
ฐานนิยม = ๑๓
๓.๒ การหาค่าการกระจายข้อมูล
การกระจายของข้อมูล หมายถึง การที่ข้อมูลชุดหนึ่งชุดใด มีลักษณะแผ่กว้างออกไปตามแนวนอนของแกนพิกัดฉากของกราฟ
สมมุติว่า มีคะแนนซึ่งได้จากการสอบคิดเลขในใจของเด็ก ๒๐ คน ซึ่งแบ่งเป็น ๒ กลุ่ม กลุ่มละ ๑๐ คน ดังนี้
กลุ่มที่ ๑ ได้คะแนน ๔ ๘ ๕ ๖ ๗ ๑๐ ๒ ๗ ๖ ๘
กลุ่มที่ ๒ ได้คะแนน ๖ ๗ ๖ ๕ ๔ ๖ ๗ ๖ ๘ ๕
ถ้านำข้อมูลทั้งสองชุดนี้มาลงจุด จะเห็นว่า คะแนนของนักเรียนกลุ่มที่ ๑ มีลักษณะแผ่กว้างออกไป หรือมีการกระจายมากกว่าคะแนนของนักเรียนกลุ่มที่ ๒ ดังแสดงด้วยรูปที่ ๙ และรูปที่ ๑๐
รูปที่ ๙
รูปที่ ๑๐
วิธีที่ง่ายที่สุดที่จะเปรียบเทียบระหว่างข้อมูล ๒ ชุดว่า ข้อมูลชุดใดมีการกระจายมากกว่ากัน ได้แก่ การตรวจดูค่าแตกต่างระหว่างคะแนนค่าสูงสุด และคะแนนค่าต่ำสุดของข้อมูลแต่ละชุด ค่าแตกต่างดังกล่าวนี้มีชื่อเรียกว่า "พิสัย" (Range) ข้อมูลชุดใดมีค่าพิสัยสูงกว่า แสดงว่า ข้อมูลนั้นน่าจะมีการกระจายมากกว่า
จากตัวอย่างข้อมูลที่ยกมาข้างต้นนี้จะเห็นว่า
ข้อมูลกลุ่มที่ ๑ พิสัย = ๑๐ - ๒ = ๘
ข้อมูลกลุ่มที่ ๒ พิสัย = ๘ - ๔ = ๔
เนื่องจากพิสัยเป็นสถิติที่ใช้วัดการกระจายได้อย่างคร่าวๆ เท่านั้น ดังนั้นจึงมักไม่เป็นที่นิยมใช้กัน
สถิติวัดการกระจายที่สำคัญ และใช้กันทั่วไป คือ ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) ซึ่งหาได้จากการเอาผลต่างระหว่างข้อมูลแต่ละค่า และมัชฌิมเลขคณิตของข้อมูลนั้นมายกกำลังสอง แล้วทำการถัวเฉลี่ยค่ากำลังสองเหล่านั้น จากนั้นจึงถอดกรณฑ์ที่สองของค่าเฉลี่ยที่ได้
จากข้อมูลกลุ่มที่ ๒ หาค่าส่วนเบี่ยงเบนมาตรฐานได้ดังนี้