Zoeken

pieterhog

onderzoek & marketing blog

Datathief

Een grafiek weer omzetten in cijfers? Datathief is een programma’tje dat dit kan doen. Grafiek scannen, inlezen in datathief, en je krijgt cijfers die je bijvoorbeeld in een spreadsheet verder kunt verwerken. Handig !

datathief

Advertenties

De zwaktes van Big Data

Big data: gebruik maken van allerlei beschikbare gegevens, bijvoorbeeld om klanten betere aanbiedingen te doen. Iemand die baby-kleertjes koopt is waarschijnlijk ook geinteresseerd in luiers en bay-voeding. Marketeers smullen van de kansen die dit biedt.

bigdata

Waarom gebruikt niet iedereen Big Data dan? Wat zijn de zwaktes?

  1. Het zegt niet waarom mensen iets kopen – was de kleding bijvoorbeeld voor het eigen kind of was het een kadootje?
  2. Het vertelt niet hoe de consument heeft gekozen, met andere woorden: wie zijn de concurrenten?
  3. Wat wil de consument eigenlijk? Misschien was de babykleding het enige acceptabele kado, maar wilde de klant liever speelgoed geven.
  4. We weten alleen iets de mensen die baby-kleertjes bij ons hebben gekocht. Van alle mogelijke klanten die ons links lieten liggen weten we niets. Misschien vinden zij onze baby-kleding wel ouderwets. Dat leren we niet uit de gegevens van de mensen die (toch nog) deze kleding koopt.
  5. Toevallige uitkomsten bij een klein aantal klanten kunnen tot foute conclusies leiden. Stel dat toevallig enkele klanten zowel veel baby-kleding én een tennisracket hebben gekocht. Nu denkt de marketeer: há! Ouders van jonge kinderen spelen kennelijk vaak tennis! Terwijl het puur toeval was.

Kortom: Big Data-analyses lenen zich vooral goed voor fine-tunen van het bestaande aanbod en prijzen. Met een experiment (bijvoorbeeld: een kraam met babykleding op de markt, observeren van de bezoekers en ondervragen van kopers en niet-kopers) zouden we méér te weten komen. Zeker als het bedrijf voor strategische keuzes staat – zoals mogelijk stoppen met baby-kleding, radicaal aanpassen van het assortiment en degelijke.

Big Data verklaart het verleden. Met soms erg ingewikkelde modellen. Maar hoe goed zijn die om de toekomst te voorspellen? De ervaring leert dan simpele modellen daarin beter zijn. Om het model te verbeteren en zinloze verbanden te schrappen, is het goed om je anlyses aan te vullen met inzicht uit de economische theorie, eerdere ervaringen en uitkomsten van andere marktonderzoeken.

Meer lezen? Zie: Perspectives on Bayesian Methods and Big Data ( Allenby, G.M., Bradlow, E.T., George, E.I. et al. Cust. Need. and Solut. (2014) 1: 169. doi:10.1007/s40547-014-0017-9

My experience with entry-level Bayes for students

bayes

This quarter I taught some introductory courses in Statistics & Market Research. In past years, the framework was: classical (=frequentist) statistics with SPSS as the tool.

This year, the framework was mixed: Frequentist versus Bayesian approach, and the choice of SPSS or JASP as a tool. My students study marketing and are new to statistics. I’d like to share 3 findings with you.

Finding 1: The students prefer JASP over SPSS. They find it much easier to use. But they miss lots of functionality. Regarding Bayesian versus Frequentism, the picture is clear as well:

Finding 2: Students find the Bayesian way of thinking logical and attractive. This method can be summarized as:

  • start with a “best guess”, a.k.a. prior, based on previous research, experts’ views, a literature study, your gut feeling, industry reports, and so on.
  • gather new data
  • update the prior by means of the new information. This gives your new “best guess” a.k.a. posterior.

What are the things that appeal in this method?

  • the concept that a very outspoken (peaked) prior combined with rather unconvincing data (small sample, small effect size, data all over the place) means that data do not influence the posterior much. “The data is swamped by the prior” so to speak 😉
  • the ideas of “updating knowlegde” and “building upon knowledge”
  • the Bayes Factor (“The data supports HypothesisA  80 times stronger than HypothesisB”) seems to fits better in a business practice where a manager makes an informed choice then a simple “significant/ unsignificant” statement based on some arbitrary cut-off value (like 0.05)
  • the idea that posterior intervals can finally be interpreted the way a reseracher wants: “I am …..% confident that the population mean is in this interval”

Finding 3: Teaching Bayesian and Frequentist thinking at the same time is very confusing to students. The main culprit is in my view the weird way of thinking that is ingrained in Frequentism – to know p(Hypothesis|data) you look at p(data|Strawmanhypothesis) .

Besides, it’sonly sometimes that you are interested in hypothesis. Many times you simply want to know the posterior distribution. Because frequentism can’t give that, they offer two lame alternatives:
1. hypothesis testing – in a very weird way to boot
2. confidence intervals, that are interpreted by everybody and his grandmother as posterior density intervals. Which they are not. But 95% of the textbooks authors seem to have missed this clue train 😉

In praise of JASP

I have been using JASP with my students, this quarter. So far they like it – as far as students actually ‘like’ statistical programs. They seem to prefer it over SPSS.

Things students like:

  • the interface is easy
  • the results show up immediately (on the right half of the screen). No more “confusing” working with separate output files
  • it starts fast, it runs fast
  • it runs off an USB-stick if needed
  • the OSX -version does not look like an afterthought
  • clicking an H1 hypothesis (with corresponding p-value) is handy and promotes insight
  • The plots are useful easy to make (just click “Plots”)

In terms of usability, the program is much better than SPSS for the kind of analyses our students do. Most of the (classical statistics) things they need is in it.

Two small wishes 

  • an easy way to make a code book (1=man; 2=woman and so on). Perhaps we overlooked it.
  • The classic confidence intervals are given in absolute terms. Let’s say I do a one-sample t-test on variable is age, against test value 40 years, then the classical output contains information such as sample mean (let’s say 36 years) , t-value and 95%-confidence (perhaps 35.1 ….36.9 years).
    But if I do a Bayesian One-Sample t-test, my (95%) Credible Intervals is only given in terms of effect size δ. I can calculate the absolute numbers from that output, but it would be handy if they were presented in the output already.

Facepalm x 3

Facepalm.png
Moet de overheid in tijden van economische crisis extra geld uitgeven? Of juist bezuinigen? Economen kunnen hier lang over ruziën. In 2010 kwamen de  Amerikaanse economen Carmen Reinhart en Kenneth Rogoff met een nieuw antwoord: bezuinigen!

Helaas bleek dat hun onderzoek nogal rammelde. Drie zijn leuk om hier te noemen.

  1. Verwarren van oorzaak en gevolg. Reinhart en Rogoff gingen in hun onderzoek uit van het verband: (overheids-tekorten) –> (economische krimp).
    Met andere woorden: hoge overheidstekorten zijn slecht voor de economie. Maar Paul Krugman (Nobelprijswinnaar economie) zegt dat het ook vaak andersom werkt:
    (economische krimp) –> (overheids-tekorten). Immers, als het slecht gaat met de economie, dan lopen ook de overheidstekorten op!  Dus, als je ziet dat een slechte economie en overheidstekorten hand in hand gaan, dan mag je niet meteen zeggen dat die slechte economie dus komt door de overheidstekorten !
  2. Selectief winkelen. Als je alleen maar landen en tijdsperiodes opneemt die in jouw straatje passen, dan kun je elke stelling “bewijzen”
  3. Een rekenfout in hun Excel sheet. Deze is opmerkelijk. Andere wetenschappers lukte het steeds maar niet om, op basis van dezelfde cijfers, tot de conclusies van Reinhart en Rogoff te komen. Wat bleek uiteindelijk? Reinhart en Rogoff hadden een fout gemaakt in hun spreadsheet, ze waren vergeten sommige cijfers mee te tellen……

Wie meer willen: lees hier of hier.

 

reinhart_rogoff_foutje

Google Trends is leuk,maar zegt weinig

Helaas, ik vond het zo’n leuke tool. Maar Google Trends blijkt dus niet zulke zinvolle antwoorden te geven….

 

google-trends

In Google Trends kun je bijvoorbeeld kijken of er meer naar ‘Rotterdam’ of meer naar ‘Nijmegen’ wordt gezocht. En dat dan als aanwijzing zien voor welke stad bijvoorbeeld meer toeristen trekt. Maar nu lees ik lees ik dat dit niet werkt.

Zo vind je op Google Trends dat er meer wordt gezocht op hotdog dan op hamburger, terwijl er  10x zo veel hamburgers worden verkocht als hotdogs.

Een paar problemen die worden genoemd:

  • Google verandert zijn algoritme voortdurend, wat vergelijk je eigenlijk met elkaar?
  • Verwarring over woorden. Hamburgers kunnen ook inwoners van die Duitse stad zijn
  • Bepaalde onderwerpen zijn populairder om over te bloggen en om naar te zoeken. Er wordt meer gezocht naar Justin Bieber dan naar The Beatles, maar die laatste heeft echt meer platen / CDs verkocht……

Hoe nu verder? Heb jij een idee hoe je nog wél Google Trends kunt gebruiken voor marktonderzoek?

 

De gruwel van Powerpoint :-)

Geinige presentatie over hoe je geen powerpoints moet presenteren.

Bayesiaans testen in de browser

Je wilt Bayesiaans testen uitproberen in de browser? Dat kan natuurlijk.

bayes online BEST

De gevangenis-elasticiteit van misdaad

Ofwel: als we 10% meer mensen in de gevangenis stoppen, met hoeveel % gaat de misdaad dan omlaag?

gevangmisdaad Meer gevangenis is minder misdaad?

Antwoord: aanvankelijk helpt het (je sluit de grootste boeven op), daarna zet het weinig zoden aan de dijk.

Maak een gratis website of blog op WordPress.com.

Omhoog ↑