Thursday, November 27, 2008

กระบวนการทางสถิติในการหาข้อสรุปจากข้อมูลเป็นอย่างไร??

กระบวนการหาคำตอบจากข้อมูลด้วยวิธีการทางสถิติมีขั้นตอนอย่างไร?


เอาละ สมมติว่ามีคำถามหรือประเด็นปัญหาที่ต้องการคำตอบ และอยากหาคำตอบโดยใช้วิธีการทางสถิติ หลักการหรือขั้นตอนในการดำเนินงานจะต้องเป็นอย่างไรบ้าง ในที่นี้ จะให้กระบวนการหรือขั้นตอนง่ายๆ ที่สามารถนำไปประยุกต์ใช้ได้ในกรณีต่างๆ ทั่วไป ดังนี้


ขั้นตอนที่ 1. กำหนดประเด็นปัญหาในเชิงสถิติ
เราต้องเริ่มต้นด้วยการทำความเข้าใจประเด็นปัญหาหรือโจทย์ที่ต้องการคำตอบเสียก่อน ว่าเป็นอะไร แล้วจึงคิดต่อไปว่า ประเด็นปัญหาเช่นนี้เทียบเคียงกับเรื่องทางสถิติแล้วคือปัญหาอะไร เช่น สนใจเปรียบเทียบตัวยาสองตำรับว่ามีความแตกต่างกันในประสิทธิผลการรักษาโรคหรือไม่ เมื่อเทียบเคียงกับประเด็นทางสถิติก็จะกำหนดได้เป็น ปัญหาการทดสอบว่าค่าเฉลี่ยของปัจจัยที่ใช้วัดประสิทธิผลของยาทั้งสองตำรับแตกต่างกันหรือไม่ เป็นต้น ให้สังเกตด้วยว่า เราไม่ต้องการวัดความแตกต่างของตัวยาสองตำรับเฉยๆ หรือในสารเคมีที่มาทำตัวยา แต่ต้องการเปรียบเทียบประสิทธิผลของยาในการรักษาโรค จึงต้องทราบว่าจะใช้ปัจจัยอะไรมาวัดประสิทธิผลของยา ซึ่งเรื่องนี้ เจ้าของศาสตร์ที่รักษาโรคจะต้องเป็นผู้กำหนดให้ โจทย์ทางสถิติจึงออกมาชัดเจนว่าเป็นการวัดค่าแตกต่างของตัวแปรใด และใช้ค่าใดเป็นตัวเปรียบเทียบ เช่น ใช้ค่าเฉลี่ย เป็นต้น ยกตัวอย่างกรณีของยารักษาความดันโลหิตสูง ตัวแปรที่ต้องนำมาพิจารณาคือ ค่า systolic และ diastolic ซึ่งคือความดันโลหิตเมื่อหัวใจบีบตัวและคลายตัว โดยต้องวัดหลังจากรับยาแล้วเป็นเวลาหนึ่ง เช่น 20 นาที เป็นต้น


ขั้นตอนที่ 2. หาข้อมูลที่มีคุณภาพมาใช้ในการวิเคราะห์
การหาคำตอบจะต้องอาศัยข้อมูลเป็นหลักฐานในการพิจารณา เมื่อกำหนดรายการข้อมูลที่ต้องนำมาใช้ในการวิเคราะห์ได้ถูกต้องชัดเจนแล้ว จึงทำการเก็บรวบรวมข้อมูล โดยต้องใช้วิธีที่เหมาะสมกับข้อมูลนั้นด้วย ซึ่งวิธีการเก็บรวบรวมข้อมูลนั้น มีอยู่เพียง 3 วิธีคือ การจดบันทึกหรือการทะเบียน การสำรวจ และการทดลอง ข้อมูลบางรายการต้องจัดเก็บด้วยวิธีหนึ่ง ในขณะที่บางรายการต้องจัดเก็บด้วยวิธีอื่น จึงจะได้ข้อมูลที่มีคุณภาพ เช่น ถ้าเป็นข้อมูลนักท่องเที่ยวที่เดินทางเข้ามาในประเทศไทย ก็ต้องเก็บด้วยวิธีการทะเบียน ถ้าไปเก็บด้วยวิธีการสำรวจ ก็จะมีปัญหาเรื่องความครบถ้วนของข้อมูล เป็นต้น การกำหนดวิธีการเก็บรวบรวมข้อมูลจึงเป็นเรื่องสำคัญ เพื่อให้ข้อมูลที่นำมาใช้มีคุณภาพดีและสามารถนำมาวิเคราะห์เพื่อตอบคำตอบได้ มิฉะนั้น ข้อสรุปที่เกิดขึ้นย่อมผิดพลาดตามไปด้วย นอกจากนี้ ข้อมูลที่นำมาใช้มักเป็นเพียงข้อมูลส่วนหนึ่งหรือข้อมูลตัวอย่างเท่านั้น ไม่ใช่ข้อมูลสมบูรณ์หรือข้อมูลประชากร การวิเคราะห์ข้อมูลจึงมักใช้วิธีการของสถิติเชิงอนุมาน เป็นส่วนใหญ่


ขั้นตอนที่ 3. อธิบายลักษณะของข้อมูลที่มี
ก่อนทำการวิเคราะห์เพื่อหาคำตอบของปัญหาที่สนใจ เราสมควรที่จะทำความเข้าใจเกี่ยวกับข้อมูลที่จัดหามาได้เสียก่อน การทำความเข้าใจคือการพยายามหาลักษณะสำคัญที่มีในข้อมูลชุดนั้น ว่าเป็นอย่างไร เช่น มีค่าหรือลักษณะที่ดูผิดปกติหรือไม่ หากมี จะได้กลับไปตรวจสอบข้อมูลรายการนั้นให้แน่ใจ มิใช่ปล่อยให้ข้อมูลนั้นทำให้ชุดข้อมูลผิดปกติไปด้วย นอกจากนี้ ยังต้องการดูลักษณะของข้อมูลชุดนี้ ว่ามีค่าอยู่ในช่วงใด มีค่ากลางเท่าไร มีการกระจายตัวของค่าในชุดข้อมูลมากน้อยเพียงไร มีรูปแบบการแจกแจงหรือการกระจายตัวอย่างไร เป็นต้น การอธิบายว่าข้อมูลที่มีอยู่นั้นมีลักษณะเช่นไร อาจถือเป็นการวิเคราะห์ข้อมูลขั้นเบื้องต้น เพื่อให้มีความเข้าใจในข้อมูลก่อนทำการวิเคราะห์ในขั้นต่อไป


ขั้นตอนที่ 4. วิเคราะห์ข้อมูลด้วยวิธีที่เหมาะสม
ขั้นตอนนี้เป็นการวิเคราะห์ข้อมูลเพื่อตอบคำถาม โดยเลือกวิธีวิเคราะห์ที่สามารถตอบคำถามได้อย่างถูกต้องเหมาะสม การวิเคราะห์จะเป็นการวิเคราะห์เชิงสถิติที่ลึกซึ้งมากขึ้น และมักเป็นการอนุมานจากข้อมูลตัวอย่างที่มีอยู่เพื่ออธิบายค่าประชากรที่สนใจ วิธีวิเคราะห์อาจเป็นวิธีเกี่ยวกับการประมาณค่า การทดสอบสมมติฐาน การหาความสัมพันธ์ และการพยากรณ์ เช่น ในกรณีที่สนใจเปรียบเทียบความแตกต่างของประสิทธิผลของยาสองตำรับในการรักษาโรคหนึ่งนั้น การวิเคราะห์ข้อมูลจะเป็นเรื่องของการทดสอบสมมติฐานว่าค่าเฉลี่ยของปัจจัยที่ใช้วัดแตกต่างกันหรือไม่ หรือของตำรับยาหนึ่งมากกว่าของอีกตำรับยาหนึ่งหรือไม่ แต่ถ้าต้องการทราบว่าประสิทธิผลของตำรับยาหนึ่งดีกว่าของอีกตำรับยาหนึ่งเท่าไร ก็อาจตั้งคำถามเป็นการประมาณค่าแตกต่าง และใช้วิธีการประมาณค่ามาหาคำตอบได้


ขั้นตอนที่ 5. สรุปผลเพื่อตอบคำถาม
เป็นขั้นตอนการแปลผลที่ได้จากการวิเคราะห์เชิงสถิติออกมาเป็นคำตอบสำหรับคำถามที่มีในเบื้องแรก ขั้นตอนนี้ ถือเป็นขั้นตอนที่สำคัญอีกขั้นตอนหนึ่ง เพื่อออกจากกรอบแนวคิดแบบสถิติศาสตร์ กลับไปสู่ความคิดของเรื่องที่สนใจตั้งแต่เริ่มต้นนั่นเอง เช่น ถ้าผลของการวิเคราะห์ที่เป็นการทดสอบสมมติฐานออกมาเป็นว่า ปฏิเสธสมมติฐานว่าง เราก็ต้องแปลความให้เข้าใจว่า ตกลงแล้ว ยาทั้งสองตัวมีประสิทธิผลต่างกันหรือไม่ หรือตัวหนึ่งมีผลในการรักษาดีกว่าอีกตัวหนึ่งอย่างไร เป็นภาษาที่ชัดเจน

สถิติเชิงพรรณนา กับสถิติเชิงอนุมาน ต่างกันอย่างไร?

สถิติเชิงพรรณนาต่างจากสถิติเชิงอนุมานอย่างไร?

แตกต่างกันทั้งในส่วนวิธีการและบทบาทที่มีในชีวิตประจำวัน

สถิติเชิงพรรณนา(Descriptive Statistics) นั้น เป็นวิชาสถิติหรือศาสตร์ที่ว่าด้วยการสรุปสาระสำคัญที่มีอยู่ในข้อมูลชุดหนึ่ง และนำเสนอข้อสรุปหรือนำสาระสำคัญในข้อมูลชุดนั้นออกมารายงาน หรืออธิบายว่ามีลักษณะเป็นอย่างไร หรือใช้ประโยชน์โดยไม่ทำการอ้างอิงไปยังข้อมูลชุดอื่นหรือข้อมูลชุดที่สมบูรณ์

กล่าวคือ สถิติเชิงพรรณนาจะว่าด้วยวิธีการในการสรุปและนำเสนอข้อมูลที่อธิบายลักษณะของข้อมูลชุดนั้นให้เป็นที่เข้าใจโดยสังเขป เช่น โดยการบอกว่าข้อมูลชุดนี้มีศูนย์กลางอยู่ที่ใด โดยการใช้ค่าเฉลี่ย หรือค่ามัธยฐานเป็นค่าแสดงว่าข้อมูลชุดนี้มีค่าอยู่ตรงไหนหรือบริเวณไหน
และโดยการบอกว่าข้อมูลชุดนี้มีค่าต่างๆ ปรากฏอยู่ในช่วงใด ค่าต่างๆ เหล่านี้เกาะกลุ่มกันมากน้อยเพียงไร หรือมีการกระจายตัวมากน้อยเพียงไร ด้วยการบอกว่า ค่าต่ำสุดค่าสูงสุดเป็นเท่าไร มีพิสัยกว้างยาวแค่ไหน มีค่าแปรปรวนและค่าเบี่ยงเบนมาตรฐานเท่ากับเท่าไร

หรืออาจใช้วิธีการสรุปด้วยแผนภาพที่ทำให้มองเห็นได้ว่าข้อมูลทั้งหมดอยู่ในช่วงใด มีค่ากลางเป็นเท่าไร มีการกระจายตัวของข้อมูลในชุดมากน้อยเพียงไร ด้วยการใช้แผนภาพกระจาย แผนภาพแสดงการแจกแจงของข้อมูล เป็นต้น

หลักการสำคัญคือ เราจะสนใจเฉพาะข้อมูลชุดที่มีในมือ และพยายามอธิบายข้อมูลชุดนี้ว่ามีลักษณะอย่างไร ด้วยวิธีต่างๆ ที่ทำให้สามารถสรุปลักษณะได้อย่างเหมาะสมและสื่อความหมายที่ถูกต้องเกี่ยวกับข้อมูลชุดนั้นเท่านั้น ภายใต้หลักการเช่นนี้ จึงอาศัยเพียงทฤษฎีทางสถิติที่มาอธิบายคุณลักษณะของวิธีการที่ใช้ในการอธิบายข้อมูล เช่นคุณสมบัติของค่าเฉลี่ย หรือค่าแปรปรวน เป็นต้น

สถิติเชิงอนุมาน(Inferential Statistics) เป็นวิชาสถิติหรือศาสตร์ที่ว่าด้วยทฤษฎีและวิธีการต่างๆ ในการวิเคราะห์ข้อมูลเพื่อตอบคำถามหรือปัญหาที่สนใจ โดยอาศัยข้อมูลเพียงส่วนหนึ่งที่มีอยู่เพื่ออธิบายข้อมูลชุดที่สมบูรณ์หรือประชากร

กล่าวคือ จากข้อมูลที่มีอยู่ซึ่งไม่ใช่ข้อมูลชุดสมบูรณ์(คือมีเฉพาะข้อมูลส่วนเดียว ที่มักเรียกว่าข้อมูลตัวอย่าง) เราต้องการสรุปสาระสำคัญในข้อมูลชุดสมบูรณ์หรือลักษณะของปรากฏการณ์หนึ่งด้วยการใช้ข้อมูลตัวอย่างหรือข้อมูลเพียงส่วนหนึ่งจากชุดข้อมูลที่สมบูรณ์นั้น แล้วทำการอนุมานจากข้อมูลตัวอย่างไปสู่ข้อมูลชุดสมบูรณ์

ความแตกต่างจากสถิติเชิงพรรณนาอยู่ที่ตรงนี้ สถิติเชิงพรรณนาทำการสรุปสาระสำคัญในข้อมูลชุดที่มีอยู่ในมือหรืออธิบายลักษณะของข้อมูลชุดนี้เท่านั้น ไม่มีการอ้างอิงถึงข้อมูลชุดอื่นหรือพยายามไปอธิบายข้อมูลชุดสมบูรณ์ เรียกว่าไม่ทำการอนุมานไปสู่ข้อมูลชุดที่สมบูรณ์นั่นเอง แต่สถิติเชิงอนุมานนั้น ไม่ใช่เลย จุดหมายหลักคือต้องการอธิบายข้อมูลชุดที่สมบูรณ์หรือประชากรว่ามีหน้าตาเป็นอย่างไร แต่ในความเป็นจริงนั้น เราไม่สามารถหาข้อมูลชุดที่สมบูรณ์ได้เสมอ ด้วยสาเหตุหลายประการ เช่น ไม่สามารถเก็บรวบรวมได้ทั้งหมด ตัวอย่างเช่น ต้องการทราบว่ามีคนกรุงเทพฯ สักกี่เปอร์เซนต์ที่เห็นด้วยกับรนโยบายการเก็บภาษีป้องกันน้ำท่วม ข้อมูลชุดสมบูรณ์หรือประชากรคือข้อมูลความคิดเห็นของคนกรุงเทพฯ ทั้งหมด ซึ่งหากเก็บรวบรวมให้สมบูรณ์ย่อมต้องใช้งบประมาณ แรงงาน และเวลามากเกินกว่าที่จะได้ใช้ประโยชน์จากข้อมูลทั้งหมดนั้น เมื่อเวลาและงบประมาณมีจำกัด ก็ต้องหาวิธีในการเก็บข้อมูล เก็บไม่ได้ทั้งหมด ก็ต้องเก็บมาเพียงบางส่วน เอาข้อมูลบางส่วนนี้มาวิเคราะห์ แต่พอตอนจะสรุปผล ก็ต้องการสรุปผลในระดับประชากรอีก คือต้องการบอกว่า ประมาณการได้ว่าคนกรุงเทพฯ กี่เปอร์เซนต์เห็นด้วย ไม่ใชว่าคนกรุงเทพฯ เฉพาะในตัวอย่างเห็นด้วยกี่เปอร์เซนต์ เมื่อคุณค่าของข้อสรุปและความต้องการเป็นเช่นนี้ ก็ต้องหาวิธีการที่จะทำให้สรุปได้ แม้จะไม่ได้ครบถ้วนตามที่ต้องการ แต่ก็ต้องดีที่สุดเท่าที่จะทำได้ สถิติเชิงอนุมานคือวิธีการต่างๆ ที่มาช่วยในกรณีเช่นนี้ เพื่อหาคำตอบในระดับประชากรโดยอาศัยเพียงข้อมูลตัวอย่าง

จะเห็นได้ว่า ประโยชน์ของสถิติเชิงอนุมานมีมากมาย และเป็นเรื่องจำเป็นสำหรับการสร้างความรู้และการประยุกต์ใช้ข้อมูล ข้อสำคัญที่ต้องระมัดระวังคือ ต้องตระหนักว่า วิธีการเหล่านี้ช่วยทำให้ตอบคำถามที่ต้องการได้ แต่ด้วยคุณภาพระดับหนึ่งเท่านั้น ซึ่งระดับคุณภาพหรือความเชื่อถือได้ในข้อสรุป ก็จะขึ้นอยู่กับข้อมูลตัวอย่างที่เอามาใช้ ว่ามีขนาดและคุณภาพในการเป็นตัวแทนประชากรที่ดีเพียงใด และขึ้นอยู่กับวิธีการสรุปผลว่าเป็นวิธีที่เหมาะสมและมีคุณภาพดีมากน้อยเพียงไรนั่นเอง

ประเด็นคุณภาพนี้ จึงเป็นประเด็นสำคัญที่ทุกคนที่ใช้ประโยชน์ข้อมูลต้องตระหนัก และพินิจพิจารณาให้ดี ก่อนที่จะเชื่อสารสนเทศหรือข้อสรุปที่ได้มา ไม่ใช่ว่า อะไรที่มีการตีพิมพ์หรือประกาศจะเป็นเรื่องที่เชื่อถือได้ทั้งหมดเสมอไป โดยเฉพาะอย่างยิ่งในยุคที่ข้อมูลข่าวสารมีมากเหลือล้น จนจะท่วมทับผู้ใช้อยู่อย่างนี้ การพิจารณาเรื่องความเชื่อถือได้ของข้อมูลและข้อสรุป ยิ่งเป็นเรื่องจำเป็นและสำคัญมากยิ่งขึ้น พูดง่ายๆ คืออย่าเชื่อโดยไม่กรอง หรือตั้งคำถามที่ควรตั้งเสียก่อน

สถิติเชิงอนุมานมีประโยชน์อย่างมากในการปฏิบัติงานและกลายเป็นสิ่งจำเป็นในการสร้างความรู้ในศาสตร์ต่างๆ โดยเฉพาะศาสตร์ที่ต้องอาศัยการพิจารณาการเกิดซ้ำๆ กันของปรากฏการณ์ในศาสตร์นั้นมาอธิบายหรือสร้างความรู้ในศาสตร์นั้น ทั้งนี้ พื้นฐานสำคัญของสถิติเชิงอนุมานคือทฤษฎีทางคณิตศาสตร์และทฤษฎีความน่าจะเป็น และได้มีการพัฒนาทฤษฎีทางสถิติศาสตร์ขึ้นมาเป็นหลักสำคัญในการเก็บรวบรวมข้อมูลและการวิเคราะห์ข้อมูล โดยในส่วนของการเก็บรวบรวมข้อมูลนั้น จะครอบคลุมทฤษฎีและวิธีการในเรื่องการสำรวจตัวอย่างและการวางแผนแบบการทดลอง ส่วนการวิเคราะห์ข้อมูลนั้น มีวิธีการที่หลากหลายเพื่อใช้ประโยชน์ตามความต้องการ เช่น การวิเคราะห์ความถดถอยเพื่อวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรและเพื่อการพยากรณ์ การวิเคราะห์ความแปรปรวนเพื่อเปรียบเทียบอิทธิพลของปัจจัยต่างๆ ที่มีต่อสิ่งที่สนใจ การวิเคราะห์อนุกรมเวลาเพื่อการพยากรณ์ และการจำแนกกลุ่ม เป็นต้น