Ce poți face cu niște date



September 1st, 2010 by Diana Coman

În esență poți face extrem de multe. Multe prostii adică. Pentru că nu tot ce poate fi scos cu un calculator și ceva statistică pe după (sau din) urechi are un sens sau o valoare reală. Chiar dacă bazate frumos pe un morman de numere și semne, urmând un raționament perfect valabil matematic (ba chiar și statistic) concluziile tot pot fi fix o mare pierdere de vreme. Ba chiar s-ar putea (oroare!) ca niște concluzii mai puțin stabile pe picioare matematice să fie mai de interes - în cazul fericit îți dau un pic de ajutor pentru a face ceva, iar în cazul nefericit măcar îți spun câte ceva despre interesul celui care s-a jucat cu datele (murdar, necurat, albastru în dungi, dar totuși interes real al unei persoane reale și în esență potențial contondente - sau rotunde -  în viața reală). Pentru că ceea ce contează întâi de toate e scopul, sensul urmărit, sau măcar interpretarea datelor cu pricina. De aceea calculatorul poate extrage din date ce poftești, dar pentru că nu poate pofti de fapt nimic de unul singur, tot nu face singur analiza datelor. Dar să vedem un exemplu - cu introducere cu tot, că asta este, la analiza datelor contextul contează. Enorm până la indispensabil (la singular, nu la plural...).

Fiind eu într-un moment de liniște și pace care aduce a pauză (cea din ochiul furtunii, dar să nu deviem), găseam ieri că e un moment numai bun de pus un pic de ordine prin lecturile mele blogosferice de limbă română. Care lecturi sunt relativ puține, iar ceea ce mă interesează de pus la păstrare precum somonul la afumat și icrele (roșii, negre) la borcan încă și mai puține, dar oricum, tot ca somonul și icrele cu pricina, se merită efortul de a le avea în propria cămară puse unde le poți găsi oricând, oricum, în siguranță. Unde le poți chiar afuma sau stoca, sau îmbina după plac, mai mult sau mai puțin, dar să nu deviem. Peste acestea, întâmplarea a făcut în plus ca tot ieri autorul trilematic să se declare interesat de astfel de acțiuni ale cititorilor săi (mai mult de anumite eventuale rezultate ale unor astfel de acțiuni, dar ajunge și atât). Să-i oferim deci minune de topuri dacă le dorește cu așa ardoare și înflăcărare. Rețeta:

Se ia un număr considerabil de articole de pe Trilema. În cazul de față cele 810 de articole apărute în perioada ianuarie-august 2010. Întâmplător articole pe care le-am și citit de altfel, la diverse momente de timp în același interval. Și ce-i cu asta, cu ce ne-am pricopsit? Păi cu un morman de date. De semne. Amestecate. Ce mai, un morman de nedescris. Dar putem deja face un top (și-un țop, și-un mop). De exemplu, fiecare articol are un titlu. Fiecare titlu are o lungime ca număr de cuvinte. Și una ca număr de semne. Vai ce frumos, top 10 articole cu cel mai lung titlu, luați de aici în ordine inversă, să păstrăm suspansul:

  1. Una dintre cele mai faine chestii pe lumea asta
  2. Criptograma ortografica, ortoepica si de punctuatie
  3. Cu ce ne mai distram prin online ? Cu expertii din '88
  4. Subiect, conversatie si forma - o analiza a idioteniei
  5. De ce British Petroleum nu va putea evita falimentul
  6. Mic curs de rezistenta in fata "presei" - pentru politicieni
  7. Viata inca si mai grea a blogerului inca si mai incepator
  8. Pilda baiatului de dulgher si a conului Marino Arhondologitului
  9. O fata perspicaca, niste fete perspicace si toti oamenii perspicaci
  10. Oda la moartea unei pisici preaiubite inecata intr-o covata de carasi
  11. Barometru de criza: Doar 20% dintre romani ar refuza sa se dezbrace la interviul de angajare!

Nu, nu sunt 11, chiar dacă pare. Pentru că cel de la 10 în fapt e un titlu foarte scurt, anume "O, da". Doar că așa e cu datele morman, se mai amestecă, se mai rup, ferfenițesc, mormănesc, încurcă. Titlurile fiind luate automat după numele directorului în care se găsesc, se întâmplă ca uneori să nu corespundă. Un motiv pentru care în fapt datele se curăță un pic (ca și somonul și icrele, da) înainte de a ne năpusti pe ele cu toată puterea de calcul (sau de ce mai avem). Dar chiar și așa, nu e un top absolut minunat? Nu-i așa că doreați să citiți articolul-cu-cel-mai-lung-titlu? Ei, acum aveți posibilitatea, e la un singur click distanță.

Culmea e că deși absolut inept topul cu pricina, în fapt tot ar putea fi util la ceva. Nu în și prin sine, ci prin interpretare. Ce aflăm dacă ne uităm la el? Că de exemplu articolele sunt pe teme destul de diverse, de la criptograme la politică, economie, presă și dolce far niente (în fine, de la, prin și până la, să zicem). Apoi că umorul e o prezență destul de constantă. În sfârșit, că articolele cu titluri lungi sunt în cazul dat aproape complet neinteresante, chiar dacă pot fi amuzante la o primă lectură. E drept că mai toate aceste concluzii de fapt n-au a face cu măreața ordonare în top10, dar ce-are a face, top s-a vrut, top s-a făcut. E că-i frumos să pierzi vremea învârtind în date? Ah, și încă nu e tot, ia să vedeți ce de mai minunății putem să facem.

O histogramă? Niște medii, mediane, grafice artistice și mai ales importante (cum să nu fie niște grafice așa științifice - ba chiar în engleză- de-o importanță covârșitoare)? Ia priviți:

Din așa grafice puteți trage concluzii pline de înțelepciune precum aceea că majoritatea titlurilor au între 10 și 30 de semne. Ceea ce totuși nu e complet inutil dacă v-ar interesa de exemplu cât ar trebui să fie lățimea unui element grafic ca să încapă majoritatea titlurilor de până acum de pe Trilema pe un singur rând. Dar vă interesează?

Curățarea aceea a datelor de care ziceam mai sus se face în fapt în mai multe treceri. Prima treabă e să cureți ce-i stricat, lipsă, julit la colțuri până la iremediabil, în fine, pricepeți. A doua e să cureți însă ce nu-ți trebuie. Cum nu-ți trebuie? Păi uite așa că e prea mare sau prea mic, sau prea pătrat sau prea rotund. Sigur că dacă e musai poți face topuri și din ceea ce nu-ți trebuie și deci arunci. De exemplu topul Criptolema pe criterii că-s criptograme și apar în ordine cronologică (Criptograma negrului castel, Criptograma care va va scoate din minti, Criptograma anatomica, In dulshili grai dambovitesc, Criptograma ortografica, ortoepica si de punctuatie etc.), topul Sexilema (sau trisexema?) pe criteriul temei etern aceeași și a tipului de discurs dinspre literar înspre didactic (Povestea Elizei (I-XXXVIII), O sută de cuvinte (I-LXXVI), Micul nostru secret etc.), topul Buricilema -care buric fiind rotund se termină de unde începe, adică e tot la fel- (Portret al artistului la tinerete, Blogerul transparent, Bai, mi-e lene, Ce bea blogerul?, Ce mananca blogerul? etc.)

Criteriile de prea pătrat sau prea rotund nu-s universale, evident, ci raportate la ce scop ai. Că trebuie să ai un scop, da. Iar chestia interesantă e că pe aceleași date, scopurile pot fi cât se poate de variate. Cu efectul secundar că se întâmplă uneori ca în cazul de față: deși multe dintre datele de intrare sunt fix aceleași, intersecția rezultatelor care mă interesează pe mine cu cele care-l interesează pe autorul trilematic să fie mulțimea vidă. De ce? Întâi că aplic mai degrabă o selecție de date decât o curățire - adică ce rămâne e puțin. Al doilea, că nu-mi trebuie topuri și nici ordonări, ci doar punerea articolelor selectate în niște căprării (categorii) de ale mele, mai adecvate pentru scopurile mele decât cele ce sunt deja și râd în soare pe Trilema. Ajunge sau facem un top5 de scopuri?

Comments feed: RSS 2.0

16 Responses to “Ce poți face cu niște date”

  1. Hahaha da' sa se consemneze ca nu fu multimea vida.

  2. Diana says:

    Ca daca era nici nu se povestea...

  3. mihai says:

    dar chiar ca are popescul niste titluri serios de lungi.

    ce nu inteleg este daca nu stii face aprecieri calitative sau cum de te-ai bagat sa ii faci topuri pe lungimea titlurilor?

  4. Diana says:

    Mihai, dar de ce sa fi facut musai topul pe criterii calitative, ca imi pare ca era acolo ceva de ludic, de varietate in criterii, nu? Iar ce anume am facut nu prea spune mare lucru despre ce as putea sau nu sa fac (vezi ca am facut cu alte ocazii si aprecieri calitative tot pe niste articole din Trilema). A fost alegerea-mi proprie sa-i fac topul pe asa criteriu fantastic si imi pare ca MP a inteles perfect de ce si cum. E o replica ce-i drept pe un pic mai multe niveluri, dar intre altele, imi pare ca articolul comunica destul de bine parerea mea despre topuri, top10, top100, topX...

  5. mihai says:

    s-ar putea sa ma pun sa fac si eu un top 10, pe baza calitativa, din cele ce i le-am citit. asta desigur, daca o sa imi permita creditele. :D

  6. Diana says:

    Foarte bine, da-i bataie si nu lasa creditele sa-ti stea in cale :)

  7. spyked says:

    Bwahahaha, cât de XKCD-ish articolul.

    Îmi aduce aminte oarecum de blog-ul celor de la Wolfram, care din când în când mai fac câte o demonstrație aplicată a mărețului lor soft - care este; măreț, zic, fiindcă așa e el, pe bună dreptate - în diverse domenii: vreme, sport, imagini cu cuc, ceasuri cu cuc și ce le mai vine lor în minte. Ce-i de notat e că și acolo ai statisticile la degetul mic, după plăcerile proprii, cele multe, că de n-ar fi nu s-ar povesti.

  8. Diana Coman says:

    Oho, ma simt flatata - imi place xkcd, evident :D

    Cat despre Wolfram-soft, vina sigur nu-i a bietului software. Ca sa nu zic ca am folosit, evident, tot un soft-statistica-la-degetul-mic pentru "calculele" din spate (ce-i drept, nu-i vorba de Wolfram).

  9. Cristian says:

    Wolphram Alpha e chiar beton! Tocmai m-am uitat pe cutremurele din Noua Zeelandă și m-a surprins în mod plăcut faptul că mi le-a și trecut pe o hartă.

  10. Diana Coman says:

    Bine ca nu face si simulare la domiciliul utilizatorului....

  11. Cristi says:

    Plateste bine?

  12. Diana Coman says:

    @Cristi Cine si ce?

  13. [...] arate cum metoda stiintifica nu da rezultate de capul ei, ci indesine e cu totul stearpa, producind o lista a celor mai lungi articole de pe Trilema publicate intr-un interval [...]

  14. [...] mai povestit și exemplificat deja cum poți face multe lucruri fără noimă cu un set de date. Iar dacă le faci, poți folosi cu succes statistica drept somnifer. Dar statistica nu are vină [...]

  15. [...] în afară de niște cifre contabilicești care însă, după cum am demonstrat cu altă ocazie, nu ne spun nimic în sine și de la sine și nu e cazul să le stoarcem de conținut taman acum de Paște. Deci luați un [...]

Leave a Reply to mihai