Keressünk tűt a szénakazalban!


Az utóbbi időben - különböző témák kapcsán - több hír is megjelent a Google internetes keresőprogrammal kapcsolatban. Az Egyesült Államokban például jogi eszközöket vetnének be a Google hamarosan induló ingyenes email-szolgáltatása miatt, ugyanis - egyes vélemények szerint - a személyiségi jogok sérülhetnek jelentősen az alkalmazott módszerek miatt. Az Index oldalán is megjelent egy hír ("Antiszemita oldal a Google első helyén"), melynek kapcsán érdemes részletesebben is megvizsgálni a Google működését és a biztonsággal kapcsolatban néhány dologra ráirányítani a figyelmet.

Egyes felmérések szerint az internetes forgalom 85%-át a keresőprogramok adják a lekérdezések és válaszok révén. Az elektronikus kereskedelemnek, de akár a mindennapi életben a rendszergazdáknak, a designereknek is elsődleges szempontja lehet olyan oldalak készítése, amelyeket sokan látogatnak, melyekre könnyen rá lehet bukkanni. Fontos szempont, hogy a látogatottság alapján mérik többek között a reklámfelületek díját is. Sokan sokféleképpen kezdtek hozzá ahhoz az optimalizációhoz, amelyekre az élelmesebb internetes keresőprogramok reagálnak. A módszerek ismertetése előtt álljon itt egy kis áttekintés a különböző keresőprogramok működéséről!

Alapvetően három módon működhetnek ezek a programok:

- könyvtár jellegű („directory”),

- fizetett hirdetésen alapuló („paid listing”),

- felderítő jellegű („crawler-based”).

A könyvtáraknál (pl. Yahoo) a kereshető tartalmat emberek állítják össze, a regisztrálni kívánt oldalakat átnézik és ellenőrzik aszerint, hogy azokon valósak-e a leírásban és a kulcsszavak rovatban megadott adatok.

A fizetett hirdetéseknél (pl. Overture) egy adott időre szóló hirdetésként elhelyezett linket vagy az ún. „pay-per-click” megoldást alkalmazzák (egyes helyeken negyed dollárt kérnek el minden egyes rákattintásért).

A felderítők (pl. Google) automatizált folyamatok révén - pontos algoritmusokon alapulva - derítik fel a világhálót és készítenek feljegyzéseket a különböző oldalakról.

Az említett három módszert ráadásul ötvözni is szokták egymással a még pontosabb találati listák összeállítása miatt, így kap a népszerű Google (crawler-based) is eredményeket egy-egy keresésnél az Open Directory Project (directory) keresőtől, mint ahogy a Yahoo (directory) is összedolgozik az Overture (paid-listing) keresővel. Az összefüggésekről pontosabb adatokat a Bruce Clay oldalán lehet megtudni.

Hirdetés

A különböző oldalak optimalizációjával foglalatoskodóknak talán a SearchEngineWatch és a már említett Bruce Clay oldalát lehet tanulmányozásra ajánlani.

Az egyes oldalak adott szempontból való (pl. megadott keresési feltételeknek megfelelő) relevanciája - azaz hogy hányadik helyen bukkan fel az adott oldal a találati listában - a régebbi próbálkozásoknál kizárólag a tartalomtól függött. Az oldalon mindössze el kellett helyezni sokszor leírva (akár a háttér színével azonosan) azt a szót, ami a leginkább jellemezte az oldalt (pl. sex sex sex), ráadásul a HTML törzsben minél előrébb, feljebb, a fejléchez közelebb kellett a kulcsot pozícionálni. Az előfordulási hely és előfordulási gyakoriság javítására még a címben (TITLE) is el lehetett helyezni a releváns adatot, de a legjobb megoldás az volt, ha a domain név is tartalmazta a pontos kifejezést. Az előfordulási gyakorisághoz kapcsolódó okoskodásokat azonban a mai keresőprogramok figyelik és büntetik is, ahogy szankcionálják a sokáig jó megoldásnak tartott metaadatok túltöltését is a kulcsszavak és leírások esetében.

META name=”description” content=”...”

 

META name=”keywords” content=”...”

A „META” szócska után megadott adatok („description” és „keywords”) alapján is lehetett értékelni az adott oldalt, de mivel ezzel is könnyű volt visszaélni, ma már inkább büntetik azt, amelyiknél szerepel a forráskódban az ilyen „tag”.

A tartalomtól független megoldásoknál került előtérbe a különböző oldalak egymással való kapcsolata, vagyis az ide-oda mutató linkekből alkotott kapcsolati háló. Logikus, hogy minél több és minél nagyobb relevanciájú oldalról mutatnak egy adott oldalra, annál biztosabb, hogy azon oldal is nagy relevanciájú, ezért érdemes előre sorolni a találati listában. Szokás emlegetni a HITS algoritmust is ilyen téren, de a Google esetében a saját fejlesztésű PageRank algoritmus játszik szerepet.

„Feltételezzük, hogy az A oldalra T1...Tn oldal hivatkozik [...]. A d paraméter egy csillapító tényező, amelynek értékét 0 és 1 közöttire választjuk meg. A d paraméter értéke általában 0.85. [...] A C(A) az A oldalon elhelyezett más oldalakra való hivatkozások. Az A oldal rangját a következőképpen adjuk meg:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

A PageRank az oldalak valószínűségi eloszlását mutatja, ezért az összes oldal PageRank rangja egyet ad.”

Az algoritmus szülőatyjai azonban nem adták közre a teljes metódust, így a d paraméter pontos értéke nem ismert, ami miatt sok egyéb dolog sem határozható meg. Az algoritmust ellátták kiegészítésekkel, ugyanis jól látható, hogy két egymásra mutató oldal végtelen ciklusba keveredne („rank sink”), amely irreálisan nagy relevanciát adna az adott oldalaknak. A link forrásánál lévőknek azt is érdemes tudniuk, hogy ma már nem nagyon működnek ezek a módszerek, sőt, a Google bünteti azon oldalakat, amelyekre ún. „link farmokon” keresztül lehet eljutni.

„Sokkal jobb, ha az adott oldalra 100 jó hivatkozás mutat, mint 1000 olyan, amit hivatkozásgyűjtő oldalaknál („link farm”) helyeztek el, ahol mindenféle témából lehet találni néhányat.”

Sok cég hirdeti magát azzal, hogy népszerűvé tud tenni egy adott oldalt, ami mögött ilyen link farmokon elhelyezett hivatkozások vannak, de ezt a megoldást ma már el lehet felejteni. A Google az alapján mondja meg egy oldalról, hogy link farmról van-e szó, hogy az arról kiinduló élek, linkek milyen témájú oldalakra mutatnak, s ha sok, különböző témát talál a hivatkozottak között, akkor keményen beavatkozik.

A megtalálhatóság az üzleti szempontok mellett biztonsági szempontokat is jelenthet. Számos probléma volt azzal kapcsolatban, hogy a bizalmasnak szánt adatokat illetéktelenek is elérték a keresőkkel. Természetesen meggondolatlanság mindenféle óvintézkedés nélkül feltenni valamit az Internetre, de még a „nagyok” is elkövetnek sokszor ilyen hibát. Nemrég egy jónevű tekintélyes tanácsadó cég egy informatikai biztonsággal kapcsolatos trendekről szóló, néhány oldalas, 500$-t kóstáló felmérését lehetett legálisan ingyen megszerezni az Internetről, amelyet ráadásul a Google révén is könnyedén meg lehetett találni.

A Google (és más keresőprogramok) felderítői (crawler), robotjai ellen is lehet bizonyos metaadatok használatával védekezni.

META name=”robots” content=”noindex,nofollow”

Az INDEX/NOINDEX üzenet jelzi a felderítőnek (crawler), hogy az adott oldalról gyűjthet-e adatokat vagy nem, míg a FOLLOW/NOFOLLOW az adott oldalon elhelyezett linkek vizsgálatát, a linkekre való ugrást engedélyezi vagy tiltja.

Kevesen tudják - ezért érdemes leírni -, hogy a keresőprogramok számára ismert, „beindexelt” tartalom („surface web”), amely alapján az egyszerű felhasználó keresni tud az Interneten, csupán kis hányada a teljes tartalomnak. A túl nagy adatmennyiség miatt még feldolgozásra nem került tartalmat a „deep web” címszóval illetik a szakemberek (forrás: Lawrence and Giles, NEC Research Institue, Princetown). A „deep web” tartalma tehát szintén elérhető lenne (ennek csak kb. 15%-át adják a jelszóval védett adatbázisok, amelyben valóban a kíváncsiskodók elől elrejtendő adatokat tárolják). A felszín (surface web) méretét 19 TeraByte-ra teszik, míg az eddig még ismeretlen, de felfedezhető „deep web” rész 750 TeraByte is lehet a felmérések szerint.

Szabó Áron (BME IK ITSec Csoport – IHM-együttműködés)

 

Azóta történt

Előzmények