Pagerank: come Google stabilisce l'imprtanza di un sito

Collapse
X
 
  • Ora
  • Show
Clear All
new posts
  • Doppio
    Superstite
    • 04/08/10
    • 4917

    #1

    Pagerank: come Google stabilisce l'imprtanza di un sito

    Google, in qualità di motore di ricerca più utilizzato al mondo, in pratica ha il potere e la responsabilità di assegnare ad ogni pagina indicizzata nel web un valore relativo rispetto alle altre, ergo è Google che dice se (tu sito) sei importante o meno all'interno della rete.

    Wikipedia riporta una formula semplificata dell'algoritmo:


    Dove:
    • ''PR[A]'' è il valore di PageRank della pagina A che vogliamo calcolare.
    • ''n'' è il numero di pagine che contengono almeno un link verso A. ''Pk'' rappresenta ognuna di tali pagine.
    • ''PR[Pk]'' sono i valori di PageRank di ogni pagina Pk.
    • ''C[Pk]'' sono il numero complessivo di link contenuti nella pagina che offre il link.
    • ''d (damping factor)'' è un fattore deciso da Google e che nella documentazione originale assume valore 0,85. Può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all'altra e il valore di PageRank minimo attribuito ad ogni pagina in archivio.


    Questa formula, in base alle mie conocenze, è in realtà solo una piccola parte dell'algoritmo effettivo, tiene infatti conto solo della presenza del link al sito che si vuole indicizzare in altre parti del web e quanto queste sono in vista, ma ci sono molti altri elementi che vengono presi in considerazione: quante volte l'accesso ad un determinato sito è frutto di una ricerca andata a buon fine (in pratica se in tanti cercano "discutere" e poi cliccano il link a questo forum la ricerca in questa direzione va a buon fine e il sito riceve quello che potremmo chiamare un +1), da qualche anno a questa parte è preso in considerazione anche il peso delle pagine del sito (perciò la sua navigabilità anche con connessioni non velocissime), questo ha ad esempio determinto in parte il crollo dei siti realizzati con Flash, che per quanto esteticamente molto sostanziosi, risultano più pesanti, a parità di contenuti, contenuti peraltro non visibili ai bot di google (ai quali appaiono solo come codici illeggibili), un altro elemento riguarda un dato curioso visto che si parla di algoritmi matematici: la qualità dei contenuti determinato attraverso altri algoritmi in continua evoluzione, ma di fatto basati sugli algoritmi quantitativi di cui sopra (e la quantità diventa qualità con un misterioso salto di... qualità?), questo pone di fatto in dubbio l'effettiva democraticità del sistema in toto: il link/"voto" di un sito porno conterà meno del link/"voto" di un sito universitario, eppure è discutibile che la cultura accademica sia più popolare della cultura pornografica.

    Per non dilungarmi troppo vengo subito alle conclusioni in modo da aprire il discorso alle vostre opinioni: la maggior parte di noi contribuisce quotidianamente in maniera più o meno inconsapevole alla crescita della più mastodontica base di dati che il mondo abbia mai visto, Google ci appare in un certa misura piuttosto anonimo e neutro (sarà la scelta di una pagina iniziale quasi vuota che mette al centro l'utente con il suo campo di ricerca), ma è ne più ne meno di un'azienda, fatta di persone che hanno nomi e cognomi e interessi privati... esiste una definizione nata nella rete attuale (quella che sta crescendo di blog, social network, forum e affini), si chiama web o trust o rete di fiducia, consiste per l'appunto nella fiducia che ogni utente ha di imbattersi in contenuti veri/buoni/utili quando questi sono diffusi e diffondibili da chiunque: io posso scegliere se credere o meno a ciò che scrive Pinco Pallino qui sul forum, ma mi sarà difficile scegliere di non credere a Larry Page (fondatore di Google) quando mi dice che quello che io stavo cercando è quello che il suo algoritmo mi ha messo in alto nella pagina di ricerca. Google presenta se stesso come un gigante buono e democratico (non a caso il suo slogan è don't be evil), ma lo è? Non suscita alcuna curiosità il fatto che una cospicua percentuale di internauti sia pronta ad inveire contro lo strapotere di Bill Gates e Microsoft, ma poi ignori totalmente che la società che gli somiglia di più come modi e obbiettivi sia Google inc. e non abbia mai nulla da ridire sui suoi sistemi?
    Non avete ancora visto niente

    Moderatore droghe
  • BiO-dEiStA
    Eufonista
    • 22/02/10
    • 5403

    #2
    Innanzitutto quello che trovi in giro sul funzionamento di PageRank, nella migliore delle ipotesi, sono solo delle indicazioni di massima. Le vere formule, oltre che modificabili a piacimento, sono più segrete di quella della Coca Cola.
    Ciò lascia volentieri a intendere che non esistano proprio, ovvero che Google possa facilmente forzare la mano a favore di chi paga. Idea fra l'altro confermata da chiunque abbia provato a pubblicizzare il suo sito su Google con una campagna a pagamento. Per il periodo stabilito il link compare in cima alla lista in base alle parole chiave, anche senza apparire fra quelli sponsorizzati. La parte oscura della formula deve contenere un indicatore di flusso monetario (tipo euro/giorno) di peso preponderante.

    Google, come Facebook, vive dei servizi a pagamento (né potrebbe essere diversamente), che però rispetto a Microsoft offrono la loro funzionalità diciamo istituzionale in modo completamente gratuito. Bill Gates invece si fa pagare per dei software che spaccia per puliti, mentre tramite backdoor occulte gli forniscono una serie di informazioni, il tutto nella totale inconsapevolezza dell'utente. Io pago per qualcosa e surrettiziamente vengo violato nella mia privacy. La differenza mi sembra sostanziale.
    Originariamente Scritto da Careful with that
    i miei post in media sono di una dozzina di righe, al più;
    Originariamente Scritto da Ned Flanders
    Sono stato tanto...ma tanto Laurina, lontano dal Signore: Ne ho combinate di cotte e di crude. Ti basti sapere soltanto questo....

    Comment

    • Doppio
      Superstite
      • 04/08/10
      • 4917

      #3
      In verità non vivono propriamente o quantomeno non solo di servizi a pagamento (anche se Google ancor più di Facebook certamente ha un cospicuo ritorno dai suoi servizi pubblicitari, che, inutile negarlo, sono decisamente ben realizzati sia dal punto di vista estetico: poco invasivi nei siti, ma sempre molto accessibili, sia dal punto di vista dei contenuti mirati), vivono soprattutto della loro stessa crescita di valore in borsa.

      Quanto al fatto che Pagerank esita be', costituendo la sostanziale differenza che ha reso Google più grande dei concorrenti diretti (nell'ordine: WebCrawler, Lycos, Exite -primo tra l'altro a introdurre strumenti con finalità esplicitamente commerciali-, per non parlare di quello che è stato a lungo il numero uno: Altavista che forniva il servizio di ricerca anche per Yahoo, che è tuttora nel campo dei motori di ricerca il concorrente più agguerrito) ho pochi dubbi... è anche brevettato (brevetto US 6285999), ergo non è una formula segreta (e qui va ricordato che Open non è Free, sono due filoni del tutto separati fin dal 1998, il secondo rappresentato dalla Free Software Foundation e il cui esempio più tipico è la licenza GPL, il primo nato dall'iniziativa di Bruce Perens e Eric S. Raymond nel '98 appunto proprio per riconquistare un sistema che non travalicasse le logiche del mercato in nome di ideali di libertà che non fanno soldi), il suo codice può essere visto, anche se ovviamente non utilizzato o modificato gratuitamente da chicchessia, non c'è comunque bisogno di pilotare i dati in modo occulto, già nella formula semplificata che ho pubblicato nel primo post c'è un d (damping factor) deciso da Google arbitrariamente (e Google comunque non fa mistero come ho detto prima di stabilire una gerarchia di contenuti, vedi l'esempio che ho fatto tra un sito accademico e uno porno).
      Non avete ancora visto niente

      Moderatore droghe

      Comment

      • BiO-dEiStA
        Eufonista
        • 22/02/10
        • 5403

        #4
        Originariamente Scritto da Doppio Visualizza Messaggio
        In verità non vivono propriamente o quantomeno non solo di servizi a pagamento (anche se Google ancor più di Facebook certamente ha un cospicuo ritorno dai suoi servizi pubblicitari, che, inutile negarlo, sono decisamente ben realizzati sia dal punto di vista estetico: poco invasivi nei siti, ma sempre molto accessibili, sia dal punto di vista dei contenuti mirati), vivono soprattutto della loro stessa crescita di valore in borsa.
        La quale è determinata sì dalle mosse sul mercato e dalle aspettative di azionisti e investitori, ma la base materiale di tutta la bolla speculativa risiede pur sempre nei dati storici di bilancio, da cui partono poi tutte le proiezioni immaginabili. Dimmi tu se qualcuno può crescere in borsa offrendo solo servizi che non mi rendono un centesimo.
        Cazzo, ti metto l'aria in scatola e te la vendo. Se poi è la stessa aria che puoi respirare liberamente, vuol dire che lo scemo sei tu.

        Quanto al fatto che Pagerank esita be', costituendo la sostanziale differenza che ha reso Google più grande dei concorrenti diretti (nell'ordine: WebCrawler, Lycos, Exite -primo tra l'altro a introdurre strumenti con finalità esplicitamente commerciali-, per non parlare di quello che è stato a lungo il numero uno: Altavista che forniva il servizio di ricerca anche per Yahoo, che è tuttora nel campo dei motori di ricerca il concorrente più agguerrito) ho pochi dubbi... è anche brevettato (brevetto US 6285999), ergo non è una formula segreta (e qui va ricordato che Open non è Free, sono due filoni del tutto separati fin dal 1998, il secondo rappresentato dalla Free Software Foundation e il cui esempio più tipico è la licenza GPL, il primo nato dall'iniziativa di Bruce Perens e Eric S. Raymond nel '98 appunto proprio per riconquistare un sistema che non travalicasse le logiche del mercato in nome di ideali di libertà che non fanno soldi), il suo codice può essere visto, anche se ovviamente non utilizzato o modificato gratuitamente da chicchessia, non c'è comunque bisogno di pilotare i dati in modo occulto, già nella formula semplificata che ho pubblicato nel primo post c'è un d (damping factor) deciso da Google arbitrariamente (e Google comunque non fa mistero come ho detto prima di stabilire una gerarchia di contenuti, vedi l'esempio che ho fatto tra un sito accademico e uno porno).
        Bene, gran discorso, ti sfugge solo un piccolo particolare. La formula semplificata è ricorsiva: il PageRank di una pagina dipende dal PageRank di n altre. Nemmeno la formula completa ci aiuta a svelare l'arcano: è ben vero che una catena di Markov di ordine qualsiasi è riducibile a una catena di Markov del primo ordine, ma questo nulla ci dice sulle condizioni iniziali, che vanno fissate a priori e arbitrariamente, e senza le quali nessun risultato è producibile.
        Avrai molte qualità ma la matematica non è il tuo forte.
        Originariamente Scritto da Careful with that
        i miei post in media sono di una dozzina di righe, al più;
        Originariamente Scritto da Ned Flanders
        Sono stato tanto...ma tanto Laurina, lontano dal Signore: Ne ho combinate di cotte e di crude. Ti basti sapere soltanto questo....

        Comment

        • Doppio
          Superstite
          • 04/08/10
          • 4917

          #5
          Infatti non ho negato la presenza di una parte di dati arbitrari, anzi l'ho sottolineata.

          Quanto alla prima parte, in teoria è giusto, ma non negherei che in borsa si faccia la cosa dell'aria in scatola, con metodi più subdoli.

          P.s. comunque non ho mai detto di sapere la matematica, mi piacerebbe perché la matematica mi affascina, ma sono abbastanza ignorante.
          Last edited by Doppio; 10-09-2012, 21:41.
          Non avete ancora visto niente

          Moderatore droghe

          Comment

          • Cornolio
            hep
            • 28/09/04
            • 20779

            #6
            Vi sfugge che il pr non sia più considerato da chi lavora nel settore da anni ormai, se non come indicatore secondario.

            Per una ragione ben specifica: le pagine con alto pr avevano un vero e proprio mercato. Si vendevano link a peso d'oro. Dopo qualche anno il giochino si è rotto, le agenzie (in generale chi lavora sui siti) s'è reso conto che la cosa non rendeva (i link contavano meno di quello che speravano), google s'è accorto del meccanismo monetario e ha scentrato l'algoritmo dal discorso del page rank facendone cadere l'importanza.

            Ciò lascia volentieri a intendere che non esistano proprio, ovvero che Google possa facilmente forzare la mano a favore di chi paga. Idea fra l'altro confermata da chiunque abbia provato a pubblicizzare il suo sito su Google con una campagna a pagamento. Per il periodo stabilito il link compare in cima alla lista in base alle parole chiave, anche senza apparire fra quelli sponsorizzati.
            Per esperienza diretta e più o meno personale posso dirti che ho visto il contrario, il che seguirebbe quindi questa logica: "se pagano per restare su sponsorizzati ha senso che li lasci salire nelle serp?"

            A volte sembra che google aiuti chi paga (l'ho sentito dire, ma anche visto), a volte sembra che li contrasti. Francamente in tanti anni non ci ho mai visto una logica vera e propria

            Comment

            • Doppio
              Superstite
              • 04/08/10
              • 4917

              #7
              Originariamente Scritto da Cornolio Visualizza Messaggio
              Vi sfugge che il pr non sia più considerato da chi lavora nel settore da anni ormai, se non come indicatore secondario.
              Questo è interessante e soprattutto mi agevola nell'uscire dal discorso economico che può intrigare, ma fino a un certo punto... mi premeva di più fin dall'inizio discutere dell'aspetto che gira attorno a temi quali l'informazione e/o i sistemi contrapposti per diffonderla, ma anche quanto l'informazione stessa è davvero accessibile (e su questo punto in particolare tengo a fare un discorso che esuli da qualsivoglia connotazione politica, non mi va di impegolarmi in cose tipo "il pensiero di Tizio passa più facilmente di quello di Caio per giochi di potere"): il web è un contenitore sconfinato, ma quasi del tutto inaccessibile senza strumenti, per citare liberamente il tipo pazzo di "Non è un paese per vecchi" non è questione di in quanti si è a cercare, occorre l'unico strumento giusto. Google quanto è lo strumento giusto? In molti casi ci reterremo soddisfatti di un nostra semplice ricerca: se ci interessa la filmografia di un noto regista, il titolo di una hit, l'indirizzo di un particolare tipo di negozio dalle nostre parti... niente di più facile, ma quante volte invece capita di cedere alla frustrazione quando quello che stiamo cercando è qualcosa di un po' più complicato rispetto a quello che avremmo potuto comunque facilmente scoprire senza l'ausilio del magico internet?

              Qualsiasi motore di ricerca ha la precisa funzione di rendere accessibile secondo un ordine logico, quale che sia, una serie di infomazioni, ma stando sempre alla formula semplificata di cui sopra sembra un po' che abbiamo a che fare con un serpente che si morde la coda: un punto della rete sarà reso più accessibile in virtù del fatto che è già più accessibile. Volendo andare oltre alla formula semplificata non va molto meglio in realtà, se ci rifacciamo ad esempio alla faccenda dei click delle ricerche andate a buon fine ci troviamo di fronte al fatto che un utente digita una ricerca, vede poche righe di testo di vari siti dove compaiono le parole che ha ricercato e riconosce tra quelli i risultati pertinenti, ma proprio perché li riconosce determinate informazioni non sarebbe strano dire che le conosceva già, può sembrare un gioco di parole sofistico, ma non è falso, almeno per me, che spesso facendo una ricerca si riscontri una certa difficoltà nel trovare qualcosa che di non noto in precedenza.

              Non so, vorrei sentire un po', ad esempio, chi sta scrivendo una tesi o qualcosa di simile, magari su un argomento specifico non così di dominio pubblico: Google è utile o ti ripota sempre alle solite quattro nozioni e a una pagina di Wikipedia che suscita grasse risate preoccupate al tuo relatore?
              Last edited by Doppio; 11-09-2012, 21:38.
              Non avete ancora visto niente

              Moderatore droghe

              Comment

              Working...