Codename Mira

Mira kódnéven fejlesztek egy keresőrendszert. Mondatértelmező rendszere képes a legkülönbözőbb kérések teljesítésére is. Gyere a blogomra és kövesd a fejlesztés történetét. A rendszer indulása: 2009. Január 5.

Friss topikok

  • Szücs József: @zooDoo: A kereső él és virul új neve Bluu lett. Azért nem szerettem volna postokban írni róla, m... (2009.08.14. 11:27) 100%-os képzőkezelés
  • atomvillanas: szia! fel tudnad velem venni a kapcsolatot a mosquito at seoblog pont hu cimen? koszi szepen! ... (2009.08.12. 09:55) Fejlemények
  • zooDoo: gondoljuk. Munkatársak: Józsi bácsi a büféből Feri bácsi a takarító. stb. (2009.04.01. 12:57) Teljes rendszer átírása
  • werjio: Itt van néhány: www.kislexikon.hu/ Ez nagyon jónak tűnik, szerintem vele érdemes lenne felvenni ... (2008.12.13. 07:59) Magyarázó
  • werjio: Szia, Egy hasonló funkciót találtam a google-nál is, nézd meg hátha ad új ötleteket: labs.google... (2008.12.13. 07:49) Asszociáció

Linkblog

Indexelés felgyorsítása

2008.08.16. 22:52 | Szücs József | 3 komment

Természetesen, amíg nem írtam a fejlődés nem állt meg. A következő ötletem, az indexelés felgyorsításáról szól. (Egyébként az internetszolgáltatásom is akadozott 60%-ban nem működött)

Bizonyára mindenki olvasta, hogy a jelenlegi hardverkörülmények (és a programom) kb. 31 nap alatt teszik lehetővé a teljes magyar web indexelését. Leginkább ez a híroldalak miatt rossz hír, hiszen van olyan, hogy percenként jelenik meg új hír egy oldalon. Ezért arra gondoltam (és persze félig már készen is van), hogy RSS-t hívom segítségül.

Tehát, ha egy oldal RSS csatornája frissül, a rendszer automatikusan indexeli az új bejegyzést, így elérhető, hogy a felhasználók a lehető legkevesebbet vegyenek észre az indexelés lassúságából, hiszen a hírekre gyakorlatilag megjelenésük után kb 2-3 perccel már keresni lehet. Például ha egyszer végre nyerünk egy aranyat az olimpián és ezt valahol megírják, 2-3 perc múlva már a rendszer tud válaszolni a "Nyertünk e már arnyérmet?" kérdésre. Igyekszem a lehető legtöbb oldal RSS csatornáját beilleszteni a rendszerbe.

És természetesen az induláskor szeretnék több szerverrel indulni. Mondjuk 2 szerver esetében már az indexelés lehet, hogy 15 nap alatt megtörténhet.

+Arra gondoltam, hogy ha kész az új design, készítek egy hosszabb minimum 20 perces videót hanggal (én leszek a narrátor), amiben a rendszer kezelését, működését és főbb irányelveit fogom bemutatni. Megmutatom, hogy mire képes és mire nem a rendszer (hol a határ a kérdések összetettségében).

A bejegyzés trackback címe:

https://mirasearch.blog.hu/api/trackback/id/tr72619165

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Kuruttya 2008.08.17. 16:41:22

Ez mennyiben jelent előnyt ahhoz képest, ha kijelölt oldalakat (gyakran frissülő híroldalakat) magukat indexelnéd 2-3 percenként? Jelentős sebesség növekedéssel jár az, ha a kb 20%-al kisebb RSS feedet indexeled, mintha a html-t indexelnéd? Felhasználod a szemantikus adatokat az RSS-ből?

Kuruttya 2008.08.17. 16:46:16

(Na, szóval nem 20%-al kisebb, hanem az rss feed a html méretének kb 20%-a az általam vizsgált oldalaknál. Csak hogy elkerüljem a belémkötést.)

Szücs József · http://www.bluu.hu 2008.08.17. 20:36:03

Ezzel a megoldással a következőt szeretném elérni:

Tehát van egy oldal. Vegyük példaként az index.hu-t. Amint az RSS csatornán eg új hír jelenik meg a rendszer a "Read more..." link által mutatott oldalt fogja beindexelni. Ennek én több előnyét láttam:

- csak azt oldalt kell beindexelni ami az új hírt tartalmazza, és az időzítéssel sem lesz gond nem lesz a szerver feleslegesen terhelve a sürven frissülő oldalaknál. (Persze ennek a megoldásnak feltétele, hogy az adott oldal teljesen be legyen indexelve)

- nem kell mondjuk 15 percenként a teljes index.hu tartalmát indexelnem, elég csak az új oldalakat. Célzott indexelés lehet így megoldani.

- a felhasználók a hír megjelenése után kb 2-3 perccel már kereshetnek az új (indexelt)oldal tartalmában.

Egyetlen hátránya (szerintem) ennek a megoldásnak, ha valaki mondjuk elír valamit (modjuk helyesírásilag) a cikkben és javítja az csak pár nap múlva kerül újra az adatbázisba.

Az RSS tartalmából pedig csak az oldalra mutató linket használom fel.
süti beállítások módosítása