Αξιολόγηση διαδικτυακών ερευνών μη πιθανότητας

Από τους Courtney Kennedy, Andrew Mercer, Scott Keeter, Nick Hatley, Kyley McGeeney και Alejandra Gimenez


Καθώς το κόστος και τα ποσοστά απάντησης των παραδοσιακών ερευνών βάσει πιθανότητας φαίνεται να αυξάνονται κάθε χρόνο, τα πλεονεκτήματα των διαδικτυακών ερευνών είναι προφανή - είναι γρήγορα και φθηνά και η τεχνολογία είναι διαδεδομένη. Υπάρχει, ωστόσο, ένα θεμελιώδες πρόβλημα: Δεν υπάρχει ολοκληρωμένο πλαίσιο δειγματοληψίας για το Διαδίκτυο, ούτε τρόπος να σχεδιάσετε ένα εθνικό δείγμα για το οποίο σχεδόν όλοι έχουν την πιθανότητα να επιλεγούν.

Η απουσία ενός τέτοιου πλαισίου έχει οδηγήσει σε παρατεταμένες ανησυχίες σχετικά με το εάν το κλάσμα του πληθυσμού που καλύπτεται από προσεγγίσεις μη πιθανότητας μπορεί να γίνει έτσι ώστε να φαίνεται αντιπροσωπευτικό ολόκληρου του πληθυσμού. Για περίπου 15 χρόνια, ανεξάρτητες μελέτες έδειξαν ότι η απάντηση σε αυτό το ερώτημα ήταν γενικά «όχι» εάν ο στόχος ήταν να γίνουν ακριβείς εκτιμήσεις πληθυσμού.1Με την πάροδο του χρόνου, ωστόσο, ερευνητές και προμηθευτές δειγμάτων έχουν αναπτύξει τεχνολογίες και στατιστικές τεχνικές που στοχεύουν στη βελτίωση της αντιπροσωπευτικότητας των διαδικτυακών ερευνών μη πιθανότητας. Αρκετές πρόσφατες μελέτες περιπτώσεων υποδηλώνουν ένα μέλλον (μερικοί θα υποστήριζαν ένα παρόν) στο οποίο οι ερευνητές δεν χρειάζεται να έχουν ένα ακριβό δείγμα βάσει πιθανότητας για να κάνουν ακριβείς εκτιμήσεις πληθυσμού.2

Βασικά στοιχεία της μελέτης

Σχέδιο:
9 διαδικτυακά δείγματα μη πιθανότητας
Σύγκριση με έναν πίνακα προσλήψεων RDD
56 μέτρα, συμπεριλαμβανομένων 20 σημείων αναφοράς

Ανάλυση:
Εκτιμώμενη μεροληψία σε πλήρη αποτελέσματα δείγματος
Εκτιμώμενη προκατάληψη στα αποτελέσματα της υποομάδας
Εκτιμώμενη ακρίβεια μοντέλων παλινδρόμησης
Δημογραφικό προφίλ ανά δείγμα
Πολιτικό προφίλ ανά δείγμα
Μεταβλητότητα των εκτιμήσεων στα δείγματα

Για να κατανοήσει καλύτερα το τρέχον τοπίο των εμπορικά διαθέσιμων διαδικτυακών δειγμάτων μη πιθανότητας, το Pew Research Center διεξήγαγε μια μελέτη στην οποία χορηγήθηκε ένα ίδιο ερωτηματολόγιο 56 τεμαχίων σε εννέα δείγματα που παρασχέθηκαν από οκτώ διαφορετικούς προμηθευτές.


Σχεδόν όλες οι ερωτήσεις (52) τέθηκαν επίσης σχετικά με τα κύματα του American Trends Panel (ATP) που βασίζονται στις πιθανότητες του Κέντρου, το οποίο διεξάγεται κυρίως στο διαδίκτυο, αλλά διαθέτει απόκριση αλληλογραφίας για ενήλικες που δεν έχουν πρόσβαση στο Διαδίκτυο. Τα δείγματα αξιολογήθηκαν χρησιμοποιώντας ένα εύρος μετρήσεων, συμπεριλαμβανομένης της εκτιμώμενης προκατάληψης σε 20 πλήρεις εκτιμήσεις δειγματοληπτικής έρευνας για τις οποίες διατίθενται υψηλής ποιότητας κυβερνητικά κριτήρια αναφοράς, εκτιμώμενη μεροληψία για σημαντικές δημογραφικές εκτιμήσεις υποομάδων και προγνωστική ακρίβεια τεσσάρων διαφορετικών μοντέλων παλινδρόμησης. Μεταξύ των πιο σημαντικών ευρημάτων αυτής της μελέτης είναι τα ακόλουθα:



  • Οι διαδικτυακές έρευνες μη πιθανότητας δεν είναι μονολιθικές.Η μελέτη διαπιστώνει, ως αφετηρία, ότι οι μέθοδοι που χρησιμοποιούνται για τη δημιουργία διαδικτυακών δειγμάτων μη πιθανότητας είναι πολύ μεταβλητές. Οι πωλητές διαφέρουν ουσιαστικά στον τρόπο πρόσληψης συμμετεχόντων, σε επιλεγμένα δείγματα και σε έρευνες πεδίου. Διαφέρουν επίσης ως προς το εάν και πώς σταθμίζουν τα δεδομένα τους. Αυτές οι διαφορές σχεδιασμού φαίνεται να εμφανίζονται στις κατατάξεις των δειγμάτων σε διάφορες μετρήσεις ποιότητας δεδομένων. Γενικά, δείγματα με πιο περίπλοκες διαδικασίες δειγματοληψίας και στάθμισης και μεγαλύτερες περιόδους πεδίου παρήγαγαν πιο ακριβή αποτελέσματα. Τούτου λεχθέντος, τα δεδομένα μας προέρχονται από μόλις εννέα δείγματα, οπότε τα αποτελέσματα αυτών των παραγόντων δεν είναι καλά απομονωμένα, καθιστώντας αυτά τα συγκεκριμένα συμπεράσματα προκαταρκτικά στην καλύτερη περίπτωση.
Αξιοσημείωτες διαφορές στην ποιότητα των δεδομένων στα διαδικτυακά δείγματα
  • Ορισμένες προκαταλήψεις είναι συνεπείς μεταξύ των διαδικτυακών δειγμάτων, άλλες όχι.Όλα τα δείγματα που αξιολογούνται περιλαμβάνουν πιο πολιτικά και πολιτικά δεσμευμένα άτομα από ό, τι οι πηγές αναφοράς δείχνουν ότι πρέπει να υπάρχουν. Οι προκαταλήψεις σχετικά με τα μέτρα εθελοντισμού και την επίλυση προβλημάτων της κοινότητας ήταν πολύ μεγάλες, ενώ εκείνες που είχαν πολιτική εμπλοκή ήταν πιο μετριοπαθείς. Παρά τις ανησυχίες σχετικά με το σφάλμα μέτρησης σε αυτά τα στοιχεία, είναι αποδεκτό ότι αυτά τα σφάλματα είναι αληθινά επειδή αρκετές μελέτες έχουν τεκμηριώσει τη σχέση μεταξύ της συνεργασίας με τις έρευνες και της προθυμίας να συμμετάσχουν σε εθελοντικές δραστηριότητες.3

Υπάρχουν επίσης ενδείξεις, αν και λιγότερο συνεπείς, ότι τα διαδικτυακά δείγματα μη πιθανότητας κλίνουν περισσότερο προς ορισμένους τρόπους ζωής. Τα περισσότερα δείγματα έχουν δυσανάλογα υψηλά ποσοστά ενηλίκων που δεν έχουν παιδιά, ζουν μόνα τους, συλλέγουν επιδόματα ανεργίας και έχουν χαμηλό εισόδημα. Από ορισμένες απόψεις, αυτό το τετράγωνο με ένα στερεότυπο μπορεί να φανταστεί κανείς για άτομα που βρίσκουν χρόνο να συμμετάσχουν σε διαδικτυακά πάνελ ερευνών, ίσως σαν μια εργασία μερικής απασχόλησης. Σε άλλες διαστάσεις, ωστόσο, οι διαδικτυακές εκτιμήσεις μη αστάθειας είναι είτε αρκετά ακριβείς (π.χ., έχουν άδεια οδήγησης ή χρονικό διάστημα στην τρέχουσα κατοικία) είτε οι προκαταλήψεις δεν είναι σε συνεπή κατεύθυνση στα δείγματα (π.χ., καθημερινό κάπνισμα).


  • Βρέθηκαν εκτεταμένα σφάλματα για εκτιμήσεις που βασίζονται σε μαύρους και ισπανόφωνους. Οι διαδικτυακοί προμηθευτές έρευνας για μη πιθανότητα θέλουν να παρέχουν δείγματα που είναι αντιπροσωπευτικά της ποικιλομορφίας του πληθυσμού των ΗΠΑ, αλλά ένα σημαντικό ερώτημα είναι εάν οι ειδικοί που είναι μέλη ομάδων φυλετικών και εθνοτικών μειονοτήτων είναι αντιπροσωπευτικοί αυτών των ομάδων ευρύτερα. Αυτή η μελέτη δείχνει ότι δεν είναι. Στα εννέα δείγματα μη πιθανότητας, η μέση εκτιμώμενη μεροληψία σε αντικείμενα αναφοράς ήταν πάνω από 10 ποσοστιαίες μονάδες τόσο για τους Ισπανόφωνους (15.1) όσο και για τους μαύρους (11.3). Επιπλέον, τα διαδικτυακά δείγματα σπάνια απέδωσαν ακριβείς εκτιμήσεις για τα οριακά αποτελέσματα του να είσαι Ισπανόφωνος ή μαύρος στα ουσιαστικά αποτελέσματα, όταν ελέγχουμε άλλα δημογραφικά στοιχεία. Αυτά τα αποτελέσματα υποδηλώνουν ότι οι ερευνητές που χρησιμοποιούν διαδικτυακά δείγματα μη πιθανότητας κινδυνεύουν να εξαγάγουν λανθασμένα συμπεράσματα σχετικά με τις επιπτώσεις που σχετίζονται με τη φυλή και την εθνικότητα.
  • Ένα αντιπροσωπευτικό δημογραφικό προφίλ δεν προβλέπει ακρίβεια. Ως επί το πλείστον, το μη σταθμισμένο δημογραφικό προφίλ ενός δείγματος δεν αποτελούσε ισχυρή πρόβλεψη για την ακρίβεια των σταθμισμένων εκτιμήσεων της έρευνας. Για παράδειγμα, τα δύο δείγματα με τη χαμηλότερη συνολική ακρίβεια κατατάχθηκαν πολύ υψηλά όσον αφορά το πόσο καλά τα μη σταθμισμένα δημογραφικά τους στοιχεία ευθυγραμμίστηκαν με τα κριτήρια αναφοράς του πληθυσμού.4Η επίπτωση είναι ότι αυτό που έχει σημασία είναι ότι οι ερωτηθέντες σε κάθε δημογραφική κατηγορία αντανακλούν τους αντίστοιχους πληθυσμούς τους. Δεν είναι πολύ καλό να διορθώσουμε την οριακή κατανομή των Ισπανόφωνων εάν οι ερωτηθέντες Ισπανόφωνοι είναι συστηματικά διαφορετικοί από τους Ισπανόφωνους στον μεγαλύτερο πληθυσμό.
  • Ένα από τα διαδικτυακά δείγματα απέδωσε με συνέπεια το καλύτερο.Δείγμα Έχω ξεπεράσει με συνέπεια τους άλλους, συμπεριλαμβανομένου του ATP βάσει πιθανότητας, κατατάσσοντας την πρώτη θέση σε όλες σχεδόν τις διαστάσεις που εξετάστηκαν.5Αυτό το δείγμα κορυφαίας απόδοσης ήταν αξιοσημείωτο στο ότι χρησιμοποίησε ένα σχετικά περίπλοκο σύνολο ρυθμίσεων τόσο στα στάδια επιλογής δείγματος όσο και σταθμίσεως. Οι προσαρμογές περιλάμβαναν τον καθορισμό αρκετών μεταβλητών που συχνά μελετούν οι ερευνητές ως αποτελέσματα της έρευνας, όπως πολιτική ιδεολογία, πολιτικό ενδιαφέρον και χρήση του Διαδικτύου. Η εντύπωση μας είναι ότι μεγάλο μέρος της επιτυχίας του δείγματος Ι προέρχεται από το γεγονός ότι σχεδιάστηκε (πριν ή / και κατά τη διάρκεια της τοποθέτησης) για να ευθυγραμμιστεί με τα σημεία αναφοράς του πληθυσμού σε αυτήν την ευρύτερη σειρά διαστάσεων. Δυστυχώς, δεν μπορούμε να ελέγξουμε αυστηρά αυτόν τον ισχυρισμό με τα διαθέσιμα δεδομένα, επειδή έχουμε μια μόνο έρευνα από αυτόν τον πωλητή και τα σχετικά χαρακτηριστικά σχεδίασης δεν χρησιμοποιήθηκαν πειραματικά σε αυτήν την έρευνα. Ενώ το γεγονός ότι το δείγμα Ι εξαρτάται από μεταβλητές που αντιμετωπίζονται συχνά ως αποτελέσματα της έρευνας εγείρει σημαντικά ερωτήματα, εξακολουθεί να φαίνεται ότι ο πωλητής δείγματος Ι έχει αναπτύξει μια αποτελεσματική μεθοδολογία. Τα αποτελέσματα αυτής της μελέτης υποδηλώνουν ότι παράγουν μια πιο αντιπροσωπευτική, πιο ακριβή εθνική έρευνα από τον ανταγωνισμό εντός του διαδικτυακού χώρου μη πιθανότητας.
  • Σε σχέση με δείγματα μη πιθανότητας, τα αποτελέσματα από το ATP είναι ανάμεικτα. Το πάνελ της Pew Research Center, το ATP, δεν ξεχωρίζει σε αυτήν τη μελέτη ως σταθερά πιο ακριβές από τα δείγματα μη πιθανότητας, καθώς η συνολική ισχυρή εμφάνισή του στα περισσότερα από τα σημεία αναφοράς υπονομεύεται από ελλείψεις σε εκτιμήσεις που σχετίζονται με την αστική εμπλοκή. Είχε τη χαμηλότερη μέση εκτιμώμενη μεροληψία σχετικά με μέτρα που δεν σχετίζονται με την πολιτική συμμετοχή (4,1 εκατοστιαίες μονάδες), αλλά ουσιαστικά συνδέθηκε με τρία άλλα δείγματα που είχαν τη μεγαλύτερη μεροληψία σε αυτούς τους τύπους ερωτήσεων (13,4 βαθμοί). Μια πιθανή εξήγηση για αυτό το μοτίβο είναι ότι το ATP κλίνει προς πιο ενήλικες που ασχολούνται με την κοινωνία ως συνέπεια της πρόσληψης από μια τηλεφωνική έρευνα 20 λεπτών σχετικά με την πολιτική. Ενώ η μεροληψία συμμετοχής πολιτών αφορά, η πρόσθετη ανάλυση δείχνει ότι δεν δημιουργεί μεγάλα σφάλματα στις εκτιμήσεις για άλλους τομείς. Όταν επαναβαθμίζουμε το ATP για να ευθυγραμμιστούμε με την Τρέχουσα Έρευνα Πληθυσμού (CPS) για την εξάλειψη αυτής της προκατάληψης, υπάρχει πολύ λίγος αντίκτυπος σε άλλες εκτιμήσεις της έρευνας, συμπεριλαμβανομένων εκτιμήσεων ψήφου, ταυτοποίησης κομμάτων, ιδεολογίας και κατανάλωσης ειδήσεων.6Σε αυτή τη μελέτη το ATP δεν προορίζεται να αντιπροσωπεύσει όλα τα δείγματα πιθανότητας με ουσιαστικό τρόπο, αλλά παρέχει ένα σημείο σύγκρισης. Είναι μια ανοιχτή ερώτηση σχετικά με το πώς μια εφάπαξ τηλεφωνική τυχαία κλήση (RDD) ή κάποια άλλη έρευνα βάσει πιθανότητας θα συσσωρευτεί σε αυτήν την ανάλυση.
  • Όλα τα διαδικτυακά δείγματα λένε μια παρόμοια ιστορία σχετικά με τις πολιτικές στάσεις και τα ψυχαγωγικά ενδιαφέροντα των Αμερικανών. Όλα τα δείγματα δείχνουν ότι περισσότεροι ενήλικες των ΗΠΑ θεωρούν τους εαυτούς τους δημοκράτες από τους Ρεπουμπλικάνους, αν και ως ομάδα κλίνουν περισσότερο δημοκρατικοί από τις έρευνες τηλεφωνικής RDD διπλού πλαισίου. Επιπλέον, όλα τα δείγματα δείχνουν ότι οι Δημοκρατικοί και οι Ρεπουμπλικάνοι είναι πολωμένοι σε σχέση με τη στάση τους σχετικά με το κατάλληλο πεδίο διακυβέρνησης. Για να είμαστε σίγουροι, υπάρχουν ορισμένες αξιοσημείωτες διαφορές σε ορισμένες εκτιμήσεις σημείων - π.χ., το μερίδιο των Ρεπουμπλικανών που λένε ότι η κυβέρνηση κάνει πάρα πολλά πράγματα καλύτερα να αφεθεί στις επιχειρήσεις και τα άτομα είναι είτε 64% είτε 82%, ανάλογα με το αν κάποιος πιστεύει ότι το δείγμα F ή δείγμα Ι. Ωστόσο, το ευρύ περίγραμμα των πολιτικών αμερικανών πολιτών είναι αναμφισβήτητα παρόμοιο μεταξύ των δειγμάτων. Με τον ίδιο τρόπο, τα αποτελέσματα από μια μπαταρία 11 αντικειμένων προσωπικού ενδιαφέροντος - που κυμαίνονται από κηπουρική έως μουσική hip-hop - δείχνουν ότι τα κορυφαία στοιχεία τείνουν να είναι τα ίδια από το ένα διαδικτυακό δείγμα στο άλλο.

Αυτή η αναφορά επικεντρώνεται στην αγορά διαδικτυακών ερευνών για μη πιθανότητες όπως αυτή τη στιγμή υπάρχει. Ωστόσο, μεγάλο μέρος της τρέχουσας ακαδημαϊκής και εφαρμοσμένης έρευνας σχετικά με αυτό το θέμα επικεντρώνεται στο πώς αυτά τα δείγματα μπορούν να βελτιωθούν μέσω μοντελοποίησης. Εκτός από σχετικά απλές προσαρμογές «raking», αυτή η μελέτη δεν εξέτασε τα πιθανά οφέλη από πιο περίπλοκες μεθόδους για τη διόρθωση των προκαταλήψεων.

Για να αντιμετωπιστεί αυτό, προγραμματίζονται πρόσθετες ερευνητικές εκθέσεις σχετικά με τη διαδικτυακή δειγματοληψία μη πιθανότητας. Κάποιος θα εξετάσει μια ποικιλία μεθόδων προσαρμογής για να προσδιορίσει πόσο καλά μπορεί να βελτιωθεί η ακρίβεια και η συγκρισιμότητα των εκτιμήσεων σε δείγματα μη πιθανότητας. Η υπό εξέλιξη έρευνα θα δοκιμάσει διαφορετικές και πιο περίπλοκες προσεγγίσεις για τη στάθμιση (ορισμένες από τις οποίες έχουν χρησιμοποιηθεί από ερευνητές σε άλλους οργανισμούς) και θα αξιολογήσει την αποτελεσματικότητα αυτών στη μείωση της προκατάληψης.


Μια δεύτερη μελέτη θα εξετάσει την αξιοπιστία των επαναλαμβανόμενων μετρήσεων με την πάροδο του χρόνου χρησιμοποιώντας διαδικτυακά δείγματα μη πιθανότητας. Η ικανότητα παρακολούθησης της αλλαγής με την πάροδο του χρόνου υπήρξε ένα από τα βασικά πλεονεκτήματα των ερευνών πιθανότητας.7

Τι σημαίνει το δείγμα «πιθανότητας» (και δεν σημαίνει) για την ποιότητα των δεδομένων

Σε αυτήν την αναφορά κάνουμε μια διάκριση μεταξύ δειγμάτων που προσλήφθηκαν από ένα σχέδιο στο οποίο σχεδόν όλοι στον πληθυσμό έχουν μια γνωστή, μη μηδενική πιθανότητα επιλογής «(βάσει πιθανότητας») έναντι δειγμάτων που προσλήφθηκαν από διαφημίσεις, αναδυόμενα αιτήματα και άλλες προσεγγίσεις σε που οι πιθανότητες επιλογής ενός δεδομένου μέλους του πληθυσμού είναι άγνωστες '(μη πιθανότητα'). Για δεκαετίες, οι ερευνητές της έρευνας τείνουν να προτιμούν δείγματα πιθανότητας σε σχέση με δείγματα μη πιθανότητας, επειδή τα δείγματα πιθανότητας, θεωρητικά, έχουν πολύ επιθυμητές ιδιότητες, όπως κατά προσέγγιση αμεροληψία και ποσοτικά προσδιορίσιμα περιθώρια σφάλματος που παρέχουν ένα εύχρηστο μέτρο ακρίβειας. Για ερευνητές που μελετούν τις τάσεις στις στάσεις και τις συμπεριφορές με την πάροδο του χρόνου, η απόλυτη σταθερότητα των διαδικασιών δειγματοληψίας βάσει πιθανότητας αντιπροσωπεύει μια επιπλέον κρίσιμη ιδιότητα.

Ενώ οι διαφορές μεταξύ δειγμάτων πιθανότητας και μη πιθανότητας μπορεί να είναι σαφείς εννοιολογικά, η πρακτική πραγματικότητα είναι πιο περίπλοκη. Η ρίζα της επιπλοκής είναι απάντηση. Εάν, για παράδειγμα, το 90% των ατόμων που επιλέχθηκαν για μια δειγματοληπτική έρευνα πιθανότητας αρνηθούν να ανταποκριθούν, οι πιθανότητες επιλογής εξακολουθούν να είναι γνωστές, αλλά οι μεμονωμένες πιθανότητες απόκρισης δεν είναι. Στις περισσότερες γενικές έρευνες για τον πληθυσμό, είναι εξαιρετικά δύσκολο να εκτιμηθούν οι πιθανότητες απόκρισης με υψηλό βαθμό ακρίβειας. Όταν οι ερευνητές δεν γνωρίζουν τις πιθανότητες απόκρισης, πρέπει να βασίζονται στη στάθμιση για να προσπαθήσουν να διορθώσουν τυχόν σχετικούς τρόπους με τους οποίους το δείγμα μπορεί να μην αντιπροσωπεύει τον πληθυσμό.

Όλο και περισσότερο, οι ερευνητές επισημαίνουν ότι όταν μια έρευνα βάσει πιθανότητας έχει υψηλό ποσοστό μη απόκρισης, τα εργαλεία αποκατάστασης και οι υποθέσεις στις οποίες βασίζονται οι εκτιμήσεις της έρευνας είναι παρόμοια, αν δεν είναι ίδια με αυτά που χρησιμοποιούνται με δείγματα μη πιθανότητας. Οι έρευνες μη πιθανότητας και οι έρευνες πιθανότητας με υψηλά ποσοστά μη απόκρισης εξαρτώνται σε μεγάλο βαθμό από τη μοντελοποίηση - είτε μια προσαρμογή τσουγκράνα, μια διαδικασία αντιστοίχισης ή ένα μοντέλο τάσης - για να φτάσουν σε αυτό που ελπίζουν οι ερευνητές να είναι ακριβείς, αξιόπιστες εκτιμήσεις.