Cautare pe site-ul Pontes

Sugestii, informatii de adaugat pe site si propuneri de categorii pentru forum

Moderator: Manu

Scrie răspuns
Campus
Comandantul unitatii
Mesaje: 446
Membru din: 09 Mai 2007, 12:15
Localitate: Cluj Napoca

Cautare pe site-ul Pontes

Mesaj de Campus »

Salutare tuturor!
De mult timp aveam in gand sa caut un script bun pentru cautare pe site si acum, daca tot ne permit bazele de date imperialiste de la gazdele noastre americane, am inceput deja sa testez unul. Ideea este ca, deoarece la site-ul pontes se lucreaza treptat din diferite directii si pe tehnologii diferite (html, php, etc) cea mai buna solutie este un crawler care sa indexeye site-ul similar cu google. Avantajele fata de google sunt ca putem indexa mai repede fiecare pagina nou aparuta.
Pana la urma, dupa vreo 4 alte scripturi incercate am gasit unul botezat Orca suplu si intelijent care este in testele sale finale.
Intre timp o sa amplasez provizoriu un mic formular de cautare in speranta ca Andreea il va muta unde doreste ea, conform exigentelor sale legate de design.
Singura problema sunt unele diacritice de prin site si forum care mai strica aspectul rezultatelor. In rest, totul pare ok
Puteti testa noua facilitate la adresa http://pontes.ro/cautare/cauta.php
Spor la cautat!
Campus
Decebal
Plutonier major
Mesaje: 238
Membru din: 18 Iul 2008, 09:48
Localitate: Oradea

Mesaj de Decebal »

sal!
Sunt sigur ca si Andreea e constructiva si va fi de acord cu orice idee de acest gen(constructiva...ca iar nu vor intelege unii decat ce vor :) )si daca tot sunt aici nu mai intru pe alt topic,caci ma cam preseaza si timpul, si va spun ca la oradea acum totul e ok in ce priveste conectarea,directa,fara subdomenii.O zi buna tuturor!
Avatar utilizator
Manu
General de divizie
Mesaje: 4120
Membru din: 02 Feb 2007, 01:15
Localitate: Cluj-Napoca
Contact:

Mesaj de Manu »

Scriptul functioneaza foarte bine, important e ca actualizarea se face repede, iar de acum se poate cauta un cuvant cheie si pe site si pe forum... fiind mai sigur ca se va gasi orice pagina care il contine.
Ma bucur ca merge la Oradea, eu am vorbit cu cei de la RDS chiar zilnic, azi dimineata am notificat la Bucuresti problema, probabil ca aia inteleg mai bine ce inseamna un cache dns. La Cluj inca nu merge, sper sa nu mai dureze mult.
Errare humanum est, sed perseverare diabolicum...
In forum linguae Latinae venite! (via est: www.limbalatina.ro)
Campus
Comandantul unitatii
Mesaje: 446
Membru din: 09 Mai 2007, 12:15
Localitate: Cluj Napoca

Mesaj de Campus »

Dupa ce mi-am petrecut sfarsitul de saptamana cu paianjenii din script am reusit, in sfarsit sa obtin o indexare cat de cat buna a site-ului si a forum-ului. Marea problema era ca unele pagini din site, mai ales celel dinamice generau alte zeci de pagini si asa mai departe.
Pentru a scapa de proliferari de acest fel am oprit accesul crawler-ului la url-urile ce contin urmatoarele string-uri:

parti ale forumului
/forum/privmsg.php - preview la posting pe forum
/forum/search.php - cautare pe forum folosita si pentru mesajele scrise de utilizatori
/forum/profile.php - profilurile de pe forum - nu contin info esentiale
/forum/posting.php - oistarea de mesaje pe forum
view=next, view=previous - utilizate in link-urile de sus de tipul topicul anterior, topicul urmator
start=0 -paginile initiale ale topicuui pe forum
forum/viewtopic.php?p= scurtatura la ultimul mesaj scris pe forum din lista de topicuri
highlight= - utilizata la cautare
watch= - utilizat la marcarea pentru urmarire
pentru album si condica
m=n-a - ordonarea dupa nume ascendent
m=n-d - ordonarea dupa nume descendent
m=t-a - ordonarea dupa titlu ascendent
m=t-d - ordonarea dupa titlu descendent
lit= - ordonarea dupa litera crawlerul ia informatiile astfel din paginare
ix=no - variabila introdusa de mine in unele url-uri in care nu am putut gasi string-uri de blocare. Poate fi utilizata in orice url daca nu doriti sa fie indexat pentru cautare cu sistemul nostru
hangman.php?letters= - bineinteles oaianjenilor lke place la nebunie spanzuratoarea. Zilele astea au jucat-o orrre in sir pana mi-am dat eu seama ce fac. Pagina de pornire a jocului este indexata dar scriptul nu are voie sa joace.

Acestea fiind spuse pana la urma la prima iindexare crawler-ul a parcurs 3049 / 3049 pagini pe site si pe forum din care a indexat 2692 pagini in 1981.86s cu o medie de procesare per link de 0.650s
In mod normal urmatoarele indexari vor fi mai rapide.
Indexarea se face automat in momentul in care cineva cauta ceva pe site si nu a avut loc nici o alta indexare in ultimele 24 de ore (termen ajustabil prin setari)
Datellllle indexate ocupa 17.12MB spatiu in baza de date
Proportia de encodate a paginilor e urmatoarea:
ISO-8859-2: 58.3% - In principal forum-ul
UTF-8: 39.4% - In principal site-ul
ISO-8859-1: 1.3%
Nespecificat 1.0%

Cam atat, scuze pt bombardamentul cu date inutile dar incepusem sa dezvilt o mica obsesie pentru scriptul asta si felul in care funcioneaza. Cautare placuta in continuare
Campus
Avatar utilizator
Manu
General de divizie
Mesaje: 4120
Membru din: 02 Feb 2007, 01:15
Localitate: Cluj-Napoca
Contact:

Mesaj de Manu »

Si cu autobuzele, troleibuzele, tramvaiele nu se plimba jucand spanzuratoarea? :)
Errare humanum est, sed perseverare diabolicum...
In forum linguae Latinae venite! (via est: www.limbalatina.ro)
Campus
Comandantul unitatii
Mesaje: 446
Membru din: 09 Mai 2007, 12:15
Localitate: Cluj Napoca

Mesaj de Campus »

manu scrie:Si cu autobuzele, troleibuzele, tramvaiele nu se plimba jucand spanzuratoarea? :)
Ba da, tocmai de aceea am introdus in url-urile utilizate de scriptul respectiv variabila ix=no pentru link-urile care nu vreau sa fie indexate (ex liniile de la fiecare statie care oricum sunt indexate din lista principala)
Campus
Comandantul unitatii
Mesaje: 446
Membru din: 09 Mai 2007, 12:15
Localitate: Cluj Napoca

Mesaj de Campus »

Pana la urma ramane indexat doar site-ul ca sa nu inundam rezultatele cautarii cu tot felul de discutii de pe forum si sa promovam mai bine proiectele oglindite pe site. Raman cam 1000 de pagini indexate pentru cautare iar indexarea se face in fiecare zi
Scrie răspuns