Szörcs with Google | Levél a Szörcs.hu fejlesztőinek

A tényszerűség kedvéért. Ez a nyílt levél a Szörcs fejlesztőinek hétfőn lett elküldve, és péntek délre ígért válaszban egyeztünk meg. Miután a az elmúlt órákban arra lettem figyelmes, hogy az általam idézett találatok kezdenek eltünni a keresőből, illetve erősen kozmetikázásra kerültek, úgy gondoltam, hogy nincs értelme tovább várni. Itt van tehát az a levél, amelyben a Szörcs fejlesztőket kérdezem bizonyos a keresőjüket érintő alapvető dolgokkal kapcsolatban, és próbálom megvilágítani és bizonyítékokkal alátámasztani, hogy mit vélek problémásnak. A levél tehát itt van, a kommentek jöhetnek, a teszteket pedig mindenki próbálja ki maga, minden nyomot úgy sem lehet eltüntetni. A lényeg kiderül a továbbiakban.

Tisztelt Szörcs.hu fejlesztők!

Többször kerestelek Titeket a Szörcs feltérképezésével és indexelésével kapcsolatban, jobbára arra irányuló kérdésekkel, hogy a Szörcs kereső milyen IP címről és milyen User-Agent-el látogatja meg a weboldalakat, amikor feltérképezi azokat. Bár a Szörcs fejlesztői blogjában (http://szorcs.hu/blog/szorcs.szorcs/user-agent/) kitértek erre a kérdésre, gyakorlatilag az ott megjelentetett adatok már magukban is érdekesek. Hivatkoztok SSO-ra, és arra, hogy a weblapok jelentős része külön kezeli a keresőket. Szakmabeliként azt kell mondjam, hogy a hazai weblapok 99%-a egyáltalán nem kezeli a keresőket, nem hogy külön kezelné.
Egyrészt azért kerestelek meg titeket, mert a fent leírtak nemcsak engem, hanem a szakmát is foglalkoztatja. Másrészt pedig mint „tartalomszolgáltató” azért várok magyarázatot, mert a piacon lévő összes valódi keresőnél felvilágosítást adnak annak érdekében, hogy a rendszergazdák, webmesterek, SEO-sok ki tudják ezeket a robotokat tiltani, ha arra van szükség. Azt hiszem, ez nem irreális elvárás.

A kérdéseimre mellébeszélés-izű válaszok érkeztek.

Szeretném az érintettek segítségével és megkérdezésével blogomban bemutathatni a Szörcs valós működését, azaz: hogy vannak-e saját robotjaitok, rendelkeztek saját indexszel, vagy pedig csak a Google és Bing találatait rendezgetitek.

Leszögezném: semmi gond nincs azzal, hogy felhasználjátok ezeknek a keresőknek a találatait – más kérdés, hogy ez a Google Szolgáltatási Feltételeivel éles ellentétben áll – de akkor pl. a Johu.hu keresőhöz hasonlóan úgy korrekt, ha felvállaljátok, hogy egy másik kereső találatait rendezgetitek, tehát egy mashup jellegű szolgáltatást fejlesztettetek hozzáadott értékkel. Viszont az kommunikálni, hogy ez teljes egészében saját technológia, az inkorrekt. Megvezeti a felhasználókat és a szakmát.

Az említett Google Szolgáltatási Feltételek idevágó része : http://www.google.hu/accounts/TOS
„Ön semmilyen formában nem jogosult a Szolgáltatások reprodukálására, sokszorosítására, másolására, forgalomba hozatalára, illetve eladására, kivéve ha ezt az Ön és a Google között létrejött külön szerződés kifejezetten megengedi.”

Feltevésemet alátámasztására végeztem néhány olyan vizsgálatot, melyeket bárki el tudja végezni, csak egy kis időt kell rá fordítani. Az eredmények egyértelműek bárki számára, aki hajlandó elvégezni a teszteket. Manipulációnak helye nincs.
(A tesztek alapjául ez a poszt is szolgált: http://blog.lbi-netrank.co.uk/is-ask-jeeves-scraping-google/

1.vizsgálat – Új tartalom bekerülése

2010.05.23 14:21-kor élesítettem egy posztot a blogomon (seoblog.hu) a következő címmel: Három éves a SEO Blog | Boldog Születésnapot! , mely a következő URL-en jelent meg: http://www.seoblog.hu/szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot/

A poszt 14:28-kor került be a Google indexébe, majd 14:30-kor a Szörcs-ön végzett kereséskor – poszt címére keresve – is megjelent.

Google találat

Szörcs találat:

Nem volt más dolgom, mint ezt a cirka 10 percnyi webszerverlogot átvizsgálni. Szerencsére vasárnap délután volt, így aztán igazán sok szemét nem került bele.

A logokban a következő adatok voltak az említett időszak tekintetében:

66.220.155.122 – – [23/May/2010:14:17:17 +0200] “GET /szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot/ HTTP/1.1” 200 9394 “-” “facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)”

66.249.65.203 – – [23/May/2010:14:20:37 +0200] “GET /szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot/ HTTP/1.1” 200 9394 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

212.51.122.137 – – [23/May/2010:14:25:07 +0200] “GET /images/SEOBirthday2009-300×274.jpg HTTP/1.1” 200 32652 “http://www.seoblog.hu/szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot/” “Mozilla/5.0 (Linux; U; Android 2.0; en-us; Milestone Build/SHOLS_U2_01.03.1) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17 NewsRob (http://newsrob.com) gzip”

188.157.124.178 – – [23/May/2010:14:25:14 +0200] “GET /images/SEOBirthday2009-300×274.jpg HTTP/1.1” 200 32652 “http://www.seoblog.hu/szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot/” “Mozilla/5.0 (Linux; U; Android 2.0; en-us; Milestone Build/SHOLS_U2_01.03.1) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17 NewsRob (http://newsrob.com) gzip”

67.195.112.163 – – [23/May/2010:14:25:20 +0200] “GET /szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot/ HTTP/1.0” 200 9394 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)”

66.220.145.244 – – [23/May/2010:14:26:46 +0200] “GET /szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot/ HTTP/1.1” 200 9394 “-” “facebookexternalhit/1.0 (+http://www.facebook.com/externalhit_uatext.php)”

66.249.65.203 – – [23/May/2010:14:28:48 +0200] “GET /szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot HTTP/1.1” 301 20 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

66.249.65.203 – – [23/May/2010:14:28:49 +0200] “GET /szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot/ HTTP/1.1” 200 9394 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

66.249.65.203 – – [23/May/2010:14:28:51 +0200] “GET /szubkult/harom-eves-a-seo-blog-boldog-szuletesnapot HTTP/1.1” 301 20 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Facebook, Yahoo! Bot, Google bot, és egy mobilról történő látogatás volt. Állításotok szerint a feltérképezés során Googlebotnak álcázzátok magatokat, így megvizsgáltam a Googlebot IP címét, mely ebben az esetben 66.249.65.203 volt. A WHOIS adatok alapján látszik, hogy ez egy, a Google birtokában lévő címtartomány. Az IP Spoofing mint olyan ebben az esetben ki van zárva.

Megállapítás: Az adott poszt úgy került be a Szörcs találatai közé, hogy bizonyíthatóan részükről nem történt feltérképezés a seoblog.hu-ra vonatkozóan, így az adott találatot egy másik kereső indexéből kellett kivenni, mely jelen esetben vagy a Google, vagy pedig a Yahoo! lehetett csak.


2.vizsgálat – IP cím és User-Agent ellenőrzés

Egy vizsgálat nem vizsgálat, ezért folytattam a nyomozást, bár egy szakértő számára talán már a fentiek is épp elég bizonyítékot szolgáltatnak.

Rengeteg olyan oldal van az interneten, mely az azt meglátogató felhasználó IP címét, illetve User-Agentjét jeleníti meg.

A mi szempontunkból ez ott érdekes, hogy amikor egy keresőrobot ellátogat egy adott oldalra, akkor az ő IP címe illetve User-Agent-je generálódik ki az oldalon, amit beolvas, majd ez kerül be a kereső indexébe, és jelenik meg a találatok között. Tehát ha Bing-el vizsgálok egy ilyen site-ot, akkor ott a Bing robotjainak IP címe és User-Agent-je jelenik meg, ha Google-el, akkor az övé. Nektek ugye elméletileg van saját robototok, bár Google User-Agent-el megy, ám az IP cím – mint az első vizsgálatnál is látszik – már kritikus, mivel továbbra sem hiszem, hogy annak a spoofolását ti meg tudnátok oldani.

Itt még annyit szeretnék hozzátenni, hogy látszólag próbáljátok ezeket a találatokat valahogy kimaszkolni, gyanúsan hiányoznak az IP címek a találataitok közül.

Jöjjenek tehát a képernyőképek
http://betteripaddress.com Szörcs, Google, és Bing találat:



Egyértelmű, hogy a Szörcs pontosan ugyanazt a snippetet adja vissza, pontosan azzal az IP címmel, amit a Googlebot kért le. Jól látható, hogy a Bing esetében a saját robotjának az adatait mutatja.

http://ip.cocodeo.hu Szörcs, Google, és Bing találat:



Ennél a példánál pedig azt láthatjuk, ahogy a Szörcs éppen a Bing találatát adja, a Bing robotjának az infóival. Ellenpélda a Google.

http://ipteller.com Szörcs, Google, és Bing találat:


Itt is gyönyörűen látható, hogy pontosan Google találatot adjátok vissza, ugyanazzal az IP címmel, amivel a Googlebot bejárta ezt az oldalt. Ellenpélda, Bing.

http://ipcimed.hu Szörcs és Google találat:

Bár itt nem pontosan egyezik a snippet, de látszik, hogy itt is egy Google IP címtartományból lekért találatot adtok vissza, Googlebot IP címmel.

Vannak még példák és screenshotok, de azt hiszem ennél több nem is kell, mindenki látja, és érti, mi a probléma.

Az lenne a kérésem, hogy a fent leírtakra (vizsgálatok, eredmények) adjatok magyarázatot, hiszen feltételezem, nektek is érdeketek, hogy az információhiányból eredő esetleges szakmai félreértések ne árnyékolják be a Szörcs image-ét, piaci sikerét. Remélem nem gondoljátok, hogy egyéni „hadjáratról” van szó, hiszen szeretném a korrekt tájékoztatás jegyében a témában érintett minden szereplőt megkérdezni, és a válaszok alapján egy hiteles, az ügy végére pontot tevő bejegyzést írni.

Kérlek Titeket, hogy 05.27.-ig küldjétek el válaszaitokat, és ha bármilyen kérdés merülne fel, keressetek bizalommal.

Üdvözlettel,
Türk István

Budapest, 2010.05.24

71 hozzászólás - “Szörcs with Google | Levél a Szörcs.hu fejlesztőinek”
  1. Woo

    Hm. Izé.. Azt hiszem kicsit félreértették páran amit írtam és azt hiszik szerecsent akarok mosdatni, pedig nem. Értem én, hogy hibáztak és ejnyebejnye, de valahogy mindenki folyton megáll ennél a ponton, amit keveslek. A baj megtörtént kellene valami MEGOLDÁS. De egyelőre csak a vérben szeret tapicskolni a többség és kész én pedig ezt a hozzáállást kicsit idejétmúltnak gondolom. Sosem elég a problémára rámutatni.

    Woo

  2. mosquito

    Woo, erkezett egy valasz, amit vagy elhiszunk vagy nem. En tovabbra sem latom viszont a levelemben feltett alapkerdesre a valaszt a Szorcs reszerol. Ha en szeretnem tiltani a Szorcs botokat – mert elkepzelheto, h akarom -, akkor azt hogyan tehetem meg anelkul, hogy a Google vagy a Bing/Yahoo botjait is tiltanom kellene. A problemara ra lett mutatva, de a Szorcs reszerol egyelore magyarazkodast erzek csak, nem pedig problema megoldast.

  3. AnarchoiD

    Olvasom a hozzaszolasokat, es jo latni hogy a magyar mentalitas nem szunnyad ;)

    Capak es piranyak koroznek a biliben ;)

  4. Zsolt

    Mindig van egy-két ilyen aki beírja ezt, de úgy látszik akkor fogalmad sincs az egészről. Teljesen jogosan háborodott fel mindenki, ez nem “magyar mentalitás”.

  5. Kinga

    @53: mivel Sajtostól még mindig nem hallottuk az igazat, naná, hogy aki tud, bizonyítékokat keres. Nem ez a kis magyar, hanem a Szörcs.
    http://www.youtube.com/watch?v=h4wjQrV5A1c

  6. Outsider

    Szerintem is inkább #53 hozzáállása a rossz értelemben vett “hagyományos” magyar. Ne merje senki kritizálni a mi kutyánk kölkét, mégha kicsit sárga, savanyú és -lehetséges, hogy- nyúlás is, na ez aztán haladó gondolkodás.

    Bár Anarchoid névvel lehet, hogy we have just been trolled.

  7. TheElf

    Az egyik alapkérdés: Van-e értelme keresőnek saját botok nélkül? Azt hiszem a válasz egy kicsit összetettebb.

    Tény, hogy a keresési eredmények megjelenítése nem a legfontosabb egy kereső életében, inkább a rangsorolás a fontos.

    Ha valaki a Google, a Bing, a Yahoo indexeit is használja, de pl. a vírusos oldalak kiszórásánál is több adatbázist használ, APIn keresztül kommunikál Twitterrel, Facebookkal, és így egy oldal ottani említéseire jobban reagáll…

    A több információforrásnak köszönhetően jobban értékeli az oldalakat minta riválisai, relevánsabb találatot ad, stb. akkor van értelme.

    És a meglévő meta keresőket sem fogod kizárni.

    Ha mindezeknek mellett a keresési trendeknek, twitteres trendeknek a figyelembevételével a legfontosabb oldalakat saját spider is elemzi (kizáni a malware-t, jobb nyelvi elemzés segíti a jobb találatot) ergo van egy saját index, de az kicsi, akkor szintén életképes keresőt kapnánk.

    A kérdés nem csak az, hogy a szörcs rendelkezik-e saját indexxel, használ-e ezek mellett külső keresőktől érkező adatot, hanem az, hogy van-e az oldalak rangsorolására egy versenyképes algoritmusa. Ha lenne biztos ezzel védenék meg magukat és nem magyarázkodással takaróznának.

  8. Tim Robbins

    azert brutalis, h a kockageek olyannyira kockageek, h nem latja a fatol az erdot :)
    az _egyik_ fo erv a csunyabacsik ellen h atb@sztak a felhasznalokat. hat latom senkinek nem tunt meg fel, de:

    A felhasznalot KURV@RA nem erdekli, h milyen crawler, db meg egyeb technikai hatter van egy kereso mogott. Annyi erdekli h ha beirja a kw-t akkor szamra a letezo legjobb talaltokat kapja.

    a szorcs.hu, max a szakmat b@szta at (ha egyaltalan).
    az meg kit erdekel.

  9. monsta

    @59: ez azert eleg primitiv altalanositas. olyan mintha azt mondanad, hogy senkit nem erdekel, ha Szoke Cica mindig playbackre tatog, mikozben Barna Muci eneket torzitottak meg minden szamahoz, az o tudta nelkul, es Cica minden interjuszereplest megragad, hogy a sajat hangjat fenyezze. valoszinuleg lesznek paran, akik csalodnak benne, ha kiderul a turpissag, nem csak a kiadoja meg Barna Muci lesznek morcosak.

    persze lehet, hogy tevedek, es az elmult heten keszitettel egy reprezentativ felmerest ezugyben, es annak az eredmenyet publikaltad az elobb.

    de meg ha igy is lenne, akkor sem mentseg, hogy a celcsoportodat nem erdekli.

    az orgazda vevoit sem erdekli, hogy honnan a cucc, aztan megis buntetik. vagy nem kene? vegulis csak a tulajdonost meg a yardot zavarja, ami elhanyagolhato kisebbseg.

    a szo amit javaslok felvenni a szotaradba: etika.

  10. Tim Robbins

    @60: vmit felre tetszik erteni, de nagyon. nem azt mondtam, h ez helyes cselekedet volt. nem, nem az. etikatlan, erkolcstelen, itt-ott jogserto esatobbi (_HA_ arrol van szo amirol !!!)

    en arrol beszelek, h ez melysegeben kb a kutyat nem erdekli. vihar a biliben.
    megegyszer: (_ha_) atb@szas tortent, akkor a kov csoportok erintettek:
    1. user
    2. szakma
    3. befektetok
    4. jogsertest elszenvedok.

    ezekbol az 1. , mint legvastagabb reteg, magasrol leszarja mindezt. nem erdekli h az SE alatt mifele motor dolgozik (ha ezzel ujat mondtam, akkor joreggelt kivanok, de azert csaknem ;) )
    a 2.-t magasrol lesz@rja a tobbi reteg (el nelkul: mikoze hozza). a 3.-4.nek pedig van koze a temahoz, de egyenlore meg nem hallottuk oket mozgolodni.

    hat en ugy hallom/olvasom, h pont a 2. kiabal, mikor ok a legkevesbe relevans talalati lista.

    szal geekvihar a biliben…

  11. monsta

    @61: ez egy szakmai blog. mit vartal ki fogja itt a velemenyet kifejteni a temaval kapcsolatban?

    tovabbra sem talalom bizonyitott tenynek, hogy a felhasznalok 100%-at ez nem erdekli, ez a te minden alatamasztast nelkulozo privat feltevesed.

    de ha meg igy is van sem kell, hogy befolyasolja a szakmailag erintett latogatokat abban, hogy velemenyt nyilvanitsanak vagy sem.

    ha a szorcs iroda elott tuntetnenk transzparensekkel, az jokora vihar lenne a biliben, addig is szakmai velemenyt nyilvanitunk kifele egy szakmai blog hosszaszolasai kozott, ami nem tunik annyira meglepo fordulatnak a korulmenyeket tekintve.

  12. Sheron

    Nem tudom de nem veszi észre észre senki, hogy ez az egész nem arról szól, hogy végfelhasználó mennyire érintett a dologban?

    Tök egyértelmű, hogy Pálfalvayi Rozáliát a dolog rohadtul nem hatja meg. Ha a dolog lényeg az ő átvágásukra ment volna akkor tények, napló esetleg Trutykós Trutykó (a kopasz kimondhatatlan nevű figura aki beszélni nem tud) foglalkozna a dologgal.

    Én nem alkotok véleményt a dologról mert közöm sincs hozzá de Ti itt fenn eléggé partvonalon beszélgettek a témáról.

    A vihar érdekes, jó látni, hogy szerencsére ma már nehéz ólmot eladni aranynak álcázva és ha ez az egész másra nem volt jó arra biztos, hogy az elkövetkezendő időkben felbukkanó startupok, megfelelően odafigyelnek a kommunikációjukra.

    Sheron

  13. Tim Robbins

    @62: legyel szives menj oda, h iwiw.hu. aztan irj be a searchbe BARMILYEN nevet. istvan, maria, tamas, AKARMI.

    aztan vedd elo a kepzeloerodet (marhogyha van, bar ezen megnyilvanulasok alapjan en ezt erosen ketlem), es gondolj mar bele, h az adott kepen szereplo egyent vajon erdekli-e, h adott kereso mogott milyen motor lakozik?
    elarulom: KURV@RA NEM FOGJA ERDEKELNI ! sot, fingja sem lesz arrol h miaz h SE motor…
    ha te szakmabeli vagy es ezt nem igy gondolod, javaslom minel elobb valtoztass szakmat. pl. fuvet nyirni tudsz-e ? en most keresek kerteszt. komo!

  14. monsta

    @64: ha nem tunt volna fel, ez nem az “atveri-e a szorcs a felhasznaloit” bejegyzes, hanem a “nyul-e mas keresoktol talalati listat es hiheto-e, hogy sajat crawleruk van” bejegyzes. emiatt a felhasznalok erdektelenseget firtato velemenyed egyreszt teljesen irrelevans, masreszt tovabbra sincs alatamasztva semmivel, azon kivul, hogy szerinted igaz. ha ezeket a trivialis tenyeket nehezedre esik megemeszteni, akkor javaslom nyird le inkabb a fuvet a kertedben, hatha lehiggadsz kozben. reszemrol ezt a meddo vitat lezartam.

  15. Tim Robbins

    @65: ideznek a post irojatol:
    “Megvezeti a felhasználókat és a szakmát.”

    szoval DE, ez egy “atveri-e a szorcs a felhasznaloit” bejegyzes IS.

    emiatt mereszkedtem reagalni a fenti mondat ket allitasara:
    1. felhasznalot nem erdekli
    2. szakmat meg talan erinti talan nem (mivel nem tudjuk perpill h igaz-e az allitas), de mivel a szakma tizenhusz emberbol all, ezert ez kb lenyegtelen kategoria.

    ergo: vihar a biliben.

  16. Benbe

    @Tim Robbins: igen, megvezeti a felhasználókat. Ők ugyanis arra számítanak, hogy mélyebben és értelmesebben merít a kereső a magyar webből, viszont a közös crawler miatt (mivel saját crawlert még senki nem látott) várható, hogy a merítése a szorcsnek legfeljebb akkora lehet, mint a google-é. Ami mondjuk a Bingéhez viszonyítva elég nagy, de összességében a magyar webre nézvést elég halvány.

    Másrészt a crawler ugye az egyszerűbb része a keresőknek, a rangsorolás és az eredmények előállítása a nehezebb. Tehát egy felhasználó gondolhatja, hogy a szorcs okosabban válogat, de ha ilyen lámák írják, akkor az is lehet, hogy nem. Ez pedig már nagyon is érinti a felhasználót.

    A legfontosabb pedig, hogy a felhasználót igenis érintik a csalások, akár egyszerűek, akár bonyolultak. Egy keresőben ma feltétlenül megbízik minden netező. Amit egy kereső eredményül ad egy kérdésre, azt fogadjuk el válaszként. A szorcs ma egy tizes skálán mennyire megbízható? Nem technikailag kérdezem, hanem szubjektíven.

    Tulajdonképpen a szorcs a cikkben leírtak alapján egy “metakereső”. A metakeresők pedig valamiért soha, sehol nem futottak be. Leginkább a felhasználók preferenciái miatt.

  17. trükkös bélabá

    betteripadress.com ra mostmár hiába keresek rá, nincs találat, kiszűrték, ne h látszódjon.

  18. krutek iatván

    Elvesztek a janúártol irt kapott leveleim,,nem ad be levelezési óldalt Mi az ördög tőrténik ijenkor ÚÚÚÚJJJJJ
    reklám oldalak..soha de soha*
    Álliztsák visza azonnal mert fóntós ügy íratok..Googhle..levelek..krutekpista..

  19. PopcornHero

    nem az első, és nem az utolsó… sajnos.

    ugye nem csak én látok e kettő közt hasonlóságot?

    http://www.mocsokmacsok.hu/

    http://www.AskMen.com/

  20. PHP/MySQL fejlesztő

    Az etikai/jogi részével nem akarok foglalkozni. Én személy szerint elítélem őket, mert nem írták ki, hogy honnan származnak a találataik, de ezen senkivel nem akarok vitatkozni. A jogi részét meg rábízom a Google-re, Bing-re és a Yahoo-ra. A szakmai részhez szólnék hozzá.

    Több, mint 15 éve fejlesztek PHP/Apache/MySQL kombinációban, úgyhogy van egy kis tapasztalatom. Ez alapján mondom a következőket:

    1. 32 Gb-os adatbázis az egyszerűen nevetséges. Az interneten levő oldalak száma nagyságrendileg 20-30 milliárd, tehát 32 Gb-ba minden oldalhoz kb. 1 byte fér bele. Mondanom sem kell, hogy ez kevés a kereséshez.

    2. Még ha csak a magyar oldalakról lenne is szó, akkor is kevés a 32 Gb. Nem vagyok ebben igazán otthon, nem tudom kideríteni, hány .hu végű domain van bejegyezve és abból hány működik, de a bejegyzés előtti kéthetes várakozó listán most 4402 domain van. Ha feltételezem, hogy az utóbbi mondjuk 5 évben ugyanez volt a trend, és más nincs beregisztrálva vagy (már) nem működik, akkor is ez több, mint 572ezer magyar domain. Egy 32 Gb-os adatbázisba domain-enként 56 kb jut, ami persze semmi, hiszen egy oldalon átlagosan is jóval több szöveges információ van, arról nem is szólva, hogy ezt nem lehet csak úgy ömlesztett szövegként tárolni, ha normális idő alatt akarunk eredményeket mutatni a felhasználónak.

    3. A MySQL adatbáziskezelőt én nagyon szeretem, tényleg gyors, nagy táblákat tud kezelni, stb. Van 10 Gb-os adatbázisom is és szépen megy. De táblánként néhány millió rekord felett már nem igazán bírja a kiképzést. Volt nem MySQL-hez kötődő, nagyobb rekordszámot tartalmazó fejlesztésem is, egyedi fejlesztésű indexeléssel persze kezelhető nagyobb rekordszám is, de MySQL-el nem.

    4. Voltam befektetők által támogatott cégben is projektvezető. Ismerem a befektetők hozzáállását a dolgokhoz. @syck szerint pár 10 milliót kellene befektetni, és igaza van: de nem forintban, hanem dollárban vagy euróban. És nincs olyan elborult agyú befektető, aki egy Google-konkurrens fejlesztésére ennyit adna (na jó, a Microsoftnál volt, ld. Bing :) ). Előfordulhatna persze, hogy egy kifejezetten magyar piacra szánt keresőt fejlesztésére adnának pénzt, arra viszont ennyi túl sok, nem térülne meg.

    5. Ha tényleg indexelnék az internetet vagy akár csak a magyar oldalakat, ahhoz akkora sávszélesség kell, ami egyszerűen túl drága ahhoz, hogy megérje kifizetni. A szorcs.hu oldalán még csak egy banner sincs, ami bevételt generálna. Az egész úgy hangzik, mintha a befektetők pénzére utaztak volna, megkapták, csináltak érte valamit, mostantól nem lesz további fejlesztés, mehet csődbe az egész.

    6. Nyilván mindenkinek első dolga saját magára rákeresni minden keresőben. A Google első találatként kiadja a honlapomat, a szorcs.hu-n ez egyáltalán nem jelenik meg a találati listában. És egyáltalán, a Google-ben az első 100 találat 95%-a tényleg rólam szól, a search-en összesen 28 találat van, amiből öszesen 6 oldal vonatkozik rám. Elég sz@r eredmény…

    7. Ha idézőjelek között keresek rá valamire (aminek mellesleg a keresés eredménye szempontjából nem sok jelentősége van, míg ugyanez a Google-nél igen hasznos tud lenni), akkor a második, harmadik, stb. oldalra kattintva az idézőjelek elé egy visszaperjel (\) karaktert rak. Ez a PHP-nek egy egész jól használható szokása (magic_quotes), miszerint a különleges karakterek elé berakja a \ karaktert, hogy adatbázis keresésekben, szövegekben ne kelljen ezt programmal megcsinálni. Ez OK is, csak elfelejtették leszedni a \ karaktereket a linkekből, egy triviális hiba. Komoly cég ilyesmit nem követ el…

    8. A szorcs.hu a lighttpd WWW szervert használja. Ez nem rossz választás, gyorsabb, mint az apache, de ezzel nagyjából ki is merült minden előnye. Egy komoly szolgáltatás mögé nem felel meg, hogy csak néhány fontosabbat említsek: nincs benne cluster-ezési lehetőség, IP6 támogatás, komoly szoftveres támogatása sincs, és 1% alatti részesedése van az Interneten, miközben az Apache-nak 56%-a van.

    Hát ennyi. Én úgy látom, hogy ez egy jól felfújt ballon, ami a szűrések miatt kezd leereszteni, de lehet, hogy mielőtt teljesen leeresztene ki fog pukkadni…