Risultati da 1 a 7 di 7

Discussione: Pagerank: come Google stabilisce l'imprtanza di un sito

  1. #1
    Superstite L'avatar di Doppio
    Data Registrazione
    04/08/10
    Località
    Dietro di te
    Messaggi
    4,861

    Pagerank: come Google stabilisce l'imprtanza di un sito

    Google, in qualit� di motore di ricerca pi� utilizzato al mondo, in pratica ha il potere e la responsabilit� di assegnare ad ogni pagina indicizzata nel web un valore relativo rispetto alle altre, ergo � Google che dice se (tu sito) sei importante o meno all'interno della rete.

    Wikipedia riporta una formula semplificata dell'algoritmo:


    Dove:
    • ''PR[A]'' � il valore di PageRank della pagina A che vogliamo calcolare.
    • ''n'' � il numero di pagine che contengono almeno un link verso A. ''Pk'' rappresenta ognuna di tali pagine.
    • ''PR[Pk]'' sono i valori di PageRank di ogni pagina Pk.
    • ''C[Pk]'' sono il numero complessivo di link contenuti nella pagina che offre il link.
    • ''d (damping factor)'' � un fattore deciso da Google e che nella documentazione originale assume valore 0,85. Pu� essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all'altra e il valore di PageRank minimo attribuito ad ogni pagina in archivio.


    Questa formula, in base alle mie conocenze, � in realt� solo una piccola parte dell'algoritmo effettivo, tiene infatti conto solo della presenza del link al sito che si vuole indicizzare in altre parti del web e quanto queste sono in vista, ma ci sono molti altri elementi che vengono presi in considerazione: quante volte l'accesso ad un determinato sito � frutto di una ricerca andata a buon fine (in pratica se in tanti cercano "discutere" e poi cliccano il link a questo forum la ricerca in questa direzione va a buon fine e il sito riceve quello che potremmo chiamare un +1), da qualche anno a questa parte � preso in considerazione anche il peso delle pagine del sito (perci� la sua navigabilit� anche con connessioni non velocissime), questo ha ad esempio determinto in parte il crollo dei siti realizzati con Flash, che per quanto esteticamente molto sostanziosi, risultano pi� pesanti, a parit� di contenuti, contenuti peraltro non visibili ai bot di google (ai quali appaiono solo come codici illeggibili), un altro elemento riguarda un dato curioso visto che si parla di algoritmi matematici: la qualit� dei contenuti determinato attraverso altri algoritmi in continua evoluzione, ma di fatto basati sugli algoritmi quantitativi di cui sopra (e la quantit� diventa qualit� con un misterioso salto di... qualit�?), questo pone di fatto in dubbio l'effettiva democraticit� del sistema in toto: il link/"voto" di un sito porno conter� meno del link/"voto" di un sito universitario, eppure � discutibile che la cultura accademica sia pi� popolare della cultura pornografica.

    Per non dilungarmi troppo vengo subito alle conclusioni in modo da aprire il discorso alle vostre opinioni: la maggior parte di noi contribuisce quotidianamente in maniera pi� o meno inconsapevole alla crescita della pi� mastodontica base di dati che il mondo abbia mai visto, Google ci appare in un certa misura piuttosto anonimo e neutro (sar� la scelta di una pagina iniziale quasi vuota che mette al centro l'utente con il suo campo di ricerca), ma � ne pi� ne meno di un'azienda, fatta di persone che hanno nomi e cognomi e interessi privati... esiste una definizione nata nella rete attuale (quella che sta crescendo di blog, social network, forum e affini), si chiama web o trust o rete di fiducia, consiste per l'appunto nella fiducia che ogni utente ha di imbattersi in contenuti veri/buoni/utili quando questi sono diffusi e diffondibili da chiunque: io posso scegliere se credere o meno a ci� che scrive Pinco Pallino qui sul forum, ma mi sar� difficile scegliere di non credere a Larry Page (fondatore di Google) quando mi dice che quello che io stavo cercando � quello che il suo algoritmo mi ha messo in alto nella pagina di ricerca. Google presenta se stesso come un gigante buono e democratico (non a caso il suo slogan � don't be evil), ma lo �? Non suscita alcuna curiosit� il fatto che una cospicua percentuale di internauti sia pronta ad inveire contro lo strapotere di Bill Gates e Microsoft, ma poi ignori totalmente che la societ� che gli somiglia di pi� come modi e obbiettivi sia Google inc. e non abbia mai nulla da ridire sui suoi sistemi?
    Non avete ancora visto niente

    Moderatore droghe

  2. #2
    Eufonista L'avatar di BiO-dEiStA
    Data Registrazione
    22/02/10
    Località
    La terra delle tre stirpi
    Messaggi
    5,403
    Innanzitutto quello che trovi in giro sul funzionamento di PageRank, nella migliore delle ipotesi, sono solo delle indicazioni di massima. Le vere formule, oltre che modificabili a piacimento, sono pi� segrete di quella della Coca Cola.
    Ci� lascia volentieri a intendere che non esistano proprio, ovvero che Google possa facilmente forzare la mano a favore di chi paga. Idea fra l'altro confermata da chiunque abbia provato a pubblicizzare il suo sito su Google con una campagna a pagamento. Per il periodo stabilito il link compare in cima alla lista in base alle parole chiave, anche senza apparire fra quelli sponsorizzati. La parte oscura della formula deve contenere un indicatore di flusso monetario (tipo euro/giorno) di peso preponderante.

    Google, come Facebook, vive dei servizi a pagamento (n� potrebbe essere diversamente), che per� rispetto a Microsoft offrono la loro funzionalit� diciamo istituzionale in modo completamente gratuito. Bill Gates invece si fa pagare per dei software che spaccia per puliti, mentre tramite backdoor occulte gli forniscono una serie di informazioni, il tutto nella totale inconsapevolezza dell'utente. Io pago per qualcosa e surrettiziamente vengo violato nella mia privacy. La differenza mi sembra sostanziale.
    Citazione Originariamente Scritto da Careful with that Visualizza Messaggio
    i miei post in media sono di una dozzina di righe, al più;
    Citazione Originariamente Scritto da Ned Flanders Visualizza Messaggio
    Sono stato tanto...ma tanto Laurina, lontano dal Signore: Ne ho combinate di cotte e di crude. Ti basti sapere soltanto questo....

  3. #3
    Superstite L'avatar di Doppio
    Data Registrazione
    04/08/10
    Località
    Dietro di te
    Messaggi
    4,861
    In verit� non vivono propriamente o quantomeno non solo di servizi a pagamento (anche se Google ancor pi� di Facebook certamente ha un cospicuo ritorno dai suoi servizi pubblicitari, che, inutile negarlo, sono decisamente ben realizzati sia dal punto di vista estetico: poco invasivi nei siti, ma sempre molto accessibili, sia dal punto di vista dei contenuti mirati), vivono soprattutto della loro stessa crescita di valore in borsa.

    Quanto al fatto che Pagerank esita be', costituendo la sostanziale differenza che ha reso Google pi� grande dei concorrenti diretti (nell'ordine: WebCrawler, Lycos, Exite -primo tra l'altro a introdurre strumenti con finalit� esplicitamente commerciali-, per non parlare di quello che � stato a lungo il numero uno: Altavista che forniva il servizio di ricerca anche per Yahoo, che � tuttora nel campo dei motori di ricerca il concorrente pi� agguerrito) ho pochi dubbi... � anche brevettato (brevetto US 6285999), ergo non � una formula segreta (e qui va ricordato che Open non � Free, sono due filoni del tutto separati fin dal 1998, il secondo rappresentato dalla Free Software Foundation e il cui esempio pi� tipico � la licenza GPL, il primo nato dall'iniziativa di Bruce Perens e Eric S. Raymond nel '98 appunto proprio per riconquistare un sistema che non travalicasse le logiche del mercato in nome di ideali di libert� che non fanno soldi), il suo codice pu� essere visto, anche se ovviamente non utilizzato o modificato gratuitamente da chicchessia, non c'� comunque bisogno di pilotare i dati in modo occulto, gi� nella formula semplificata che ho pubblicato nel primo post c'� un d (damping factor) deciso da Google arbitrariamente (e Google comunque non fa mistero come ho detto prima di stabilire una gerarchia di contenuti, vedi l'esempio che ho fatto tra un sito accademico e uno porno).
    Non avete ancora visto niente

    Moderatore droghe

  4. #4
    Eufonista L'avatar di BiO-dEiStA
    Data Registrazione
    22/02/10
    Località
    La terra delle tre stirpi
    Messaggi
    5,403
    Citazione Originariamente Scritto da Doppio Visualizza Messaggio
    In verit� non vivono propriamente o quantomeno non solo di servizi a pagamento (anche se Google ancor pi� di Facebook certamente ha un cospicuo ritorno dai suoi servizi pubblicitari, che, inutile negarlo, sono decisamente ben realizzati sia dal punto di vista estetico: poco invasivi nei siti, ma sempre molto accessibili, sia dal punto di vista dei contenuti mirati), vivono soprattutto della loro stessa crescita di valore in borsa.
    La quale � determinata s� dalle mosse sul mercato e dalle aspettative di azionisti e investitori, ma la base materiale di tutta la bolla speculativa risiede pur sempre nei dati storici di bilancio, da cui partono poi tutte le proiezioni immaginabili. Dimmi tu se qualcuno pu� crescere in borsa offrendo solo servizi che non mi rendono un centesimo.
    Cazzo, ti metto l'aria in scatola e te la vendo. Se poi � la stessa aria che puoi respirare liberamente, vuol dire che lo scemo sei tu.

    Quanto al fatto che Pagerank esita be', costituendo la sostanziale differenza che ha reso Google pi� grande dei concorrenti diretti (nell'ordine: WebCrawler, Lycos, Exite -primo tra l'altro a introdurre strumenti con finalit� esplicitamente commerciali-, per non parlare di quello che � stato a lungo il numero uno: Altavista che forniva il servizio di ricerca anche per Yahoo, che � tuttora nel campo dei motori di ricerca il concorrente pi� agguerrito) ho pochi dubbi... � anche brevettato (brevetto US 6285999), ergo non � una formula segreta (e qui va ricordato che Open non � Free, sono due filoni del tutto separati fin dal 1998, il secondo rappresentato dalla Free Software Foundation e il cui esempio pi� tipico � la licenza GPL, il primo nato dall'iniziativa di Bruce Perens e Eric S. Raymond nel '98 appunto proprio per riconquistare un sistema che non travalicasse le logiche del mercato in nome di ideali di libert� che non fanno soldi), il suo codice pu� essere visto, anche se ovviamente non utilizzato o modificato gratuitamente da chicchessia, non c'� comunque bisogno di pilotare i dati in modo occulto, gi� nella formula semplificata che ho pubblicato nel primo post c'� un d (damping factor) deciso da Google arbitrariamente (e Google comunque non fa mistero come ho detto prima di stabilire una gerarchia di contenuti, vedi l'esempio che ho fatto tra un sito accademico e uno porno).
    Bene, gran discorso, ti sfugge solo un piccolo particolare. La formula semplificata � ricorsiva: il PageRank di una pagina dipende dal PageRank di n altre. Nemmeno la formula completa ci aiuta a svelare l'arcano: � ben vero che una catena di Markov di ordine qualsiasi � riducibile a una catena di Markov del primo ordine, ma questo nulla ci dice sulle condizioni iniziali, che vanno fissate a priori e arbitrariamente, e senza le quali nessun risultato � producibile.
    Avrai molte qualit� ma la matematica non � il tuo forte.
    Citazione Originariamente Scritto da Careful with that Visualizza Messaggio
    i miei post in media sono di una dozzina di righe, al più;
    Citazione Originariamente Scritto da Ned Flanders Visualizza Messaggio
    Sono stato tanto...ma tanto Laurina, lontano dal Signore: Ne ho combinate di cotte e di crude. Ti basti sapere soltanto questo....

  5. #5
    Superstite L'avatar di Doppio
    Data Registrazione
    04/08/10
    Località
    Dietro di te
    Messaggi
    4,861
    Infatti non ho negato la presenza di una parte di dati arbitrari, anzi l'ho sottolineata.

    Quanto alla prima parte, in teoria � giusto, ma non negherei che in borsa si faccia la cosa dell'aria in scatola, con metodi pi� subdoli.

    P.s. comunque non ho mai detto di sapere la matematica, mi piacerebbe perch� la matematica mi affascina, ma sono abbastanza ignorante.
    Ultima modifica di Doppio; 10-09-2012 alle 22:41
    Non avete ancora visto niente

    Moderatore droghe

  6. #6
    hep L'avatar di Cornolio
    Data Registrazione
    28/09/04
    Località
    Milano
    Messaggi
    20,739
    Vi sfugge che il pr non sia pi� considerato da chi lavora nel settore da anni ormai, se non come indicatore secondario.

    Per una ragione ben specifica: le pagine con alto pr avevano un vero e proprio mercato. Si vendevano link a peso d'oro. Dopo qualche anno il giochino si � rotto, le agenzie (in generale chi lavora sui siti) s'� reso conto che la cosa non rendeva (i link contavano meno di quello che speravano), google s'� accorto del meccanismo monetario e ha scentrato l'algoritmo dal discorso del page rank facendone cadere l'importanza.

    Ci� lascia volentieri a intendere che non esistano proprio, ovvero che Google possa facilmente forzare la mano a favore di chi paga. Idea fra l'altro confermata da chiunque abbia provato a pubblicizzare il suo sito su Google con una campagna a pagamento. Per il periodo stabilito il link compare in cima alla lista in base alle parole chiave, anche senza apparire fra quelli sponsorizzati.
    Per esperienza diretta e pi� o meno personale posso dirti che ho visto il contrario, il che seguirebbe quindi questa logica: "se pagano per restare su sponsorizzati ha senso che li lasci salire nelle serp?"

    A volte sembra che google aiuti chi paga (l'ho sentito dire, ma anche visto), a volte sembra che li contrasti. Francamente in tanti anni non ci ho mai visto una logica vera e propria


  7. #7
    Superstite L'avatar di Doppio
    Data Registrazione
    04/08/10
    Località
    Dietro di te
    Messaggi
    4,861
    Citazione Originariamente Scritto da Cornolio Visualizza Messaggio
    Vi sfugge che il pr non sia pi� considerato da chi lavora nel settore da anni ormai, se non come indicatore secondario.
    Questo � interessante e soprattutto mi agevola nell'uscire dal discorso economico che pu� intrigare, ma fino a un certo punto... mi premeva di pi� fin dall'inizio discutere dell'aspetto che gira attorno a temi quali l'informazione e/o i sistemi contrapposti per diffonderla, ma anche quanto l'informazione stessa � davvero accessibile (e su questo punto in particolare tengo a fare un discorso che esuli da qualsivoglia connotazione politica, non mi va di impegolarmi in cose tipo "il pensiero di Tizio passa pi� facilmente di quello di Caio per giochi di potere"): il web � un contenitore sconfinato, ma quasi del tutto inaccessibile senza strumenti, per citare liberamente il tipo pazzo di "Non � un paese per vecchi" non � questione di in quanti si � a cercare, occorre l'unico strumento giusto. Google quanto � lo strumento giusto? In molti casi ci reterremo soddisfatti di un nostra semplice ricerca: se ci interessa la filmografia di un noto regista, il titolo di una hit, l'indirizzo di un particolare tipo di negozio dalle nostre parti... niente di pi� facile, ma quante volte invece capita di cedere alla frustrazione quando quello che stiamo cercando � qualcosa di un po' pi� complicato rispetto a quello che avremmo potuto comunque facilmente scoprire senza l'ausilio del magico internet?

    Qualsiasi motore di ricerca ha la precisa funzione di rendere accessibile secondo un ordine logico, quale che sia, una serie di infomazioni, ma stando sempre alla formula semplificata di cui sopra sembra un po' che abbiamo a che fare con un serpente che si morde la coda: un punto della rete sar� reso pi� accessibile in virt� del fatto che � gi� pi� accessibile. Volendo andare oltre alla formula semplificata non va molto meglio in realt�, se ci rifacciamo ad esempio alla faccenda dei click delle ricerche andate a buon fine ci troviamo di fronte al fatto che un utente digita una ricerca, vede poche righe di testo di vari siti dove compaiono le parole che ha ricercato e riconosce tra quelli i risultati pertinenti, ma proprio perch� li riconosce determinate informazioni non sarebbe strano dire che le conosceva gi�, pu� sembrare un gioco di parole sofistico, ma non � falso, almeno per me, che spesso facendo una ricerca si riscontri una certa difficolt� nel trovare qualcosa che di non noto in precedenza.

    Non so, vorrei sentire un po', ad esempio, chi sta scrivendo una tesi o qualcosa di simile, magari su un argomento specifico non cos� di dominio pubblico: Google � utile o ti ripota sempre alle solite quattro nozioni e a una pagina di Wikipedia che suscita grasse risate preoccupate al tuo relatore?
    Ultima modifica di Doppio; 11-09-2012 alle 22:38
    Non avete ancora visto niente

    Moderatore droghe

Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BBAttivato
  • Le faccine sono Attivato
  • Il codice [IMG]Attivato
  • Il codice [VIDEO]Attivato
  • Il codice HTML � Disattivato