Cautare pe site-ul Pontes
Moderator: Manu
Cautare pe site-ul Pontes
Salutare tuturor!
De mult timp aveam in gand sa caut un script bun pentru cautare pe site si acum, daca tot ne permit bazele de date imperialiste de la gazdele noastre americane, am inceput deja sa testez unul. Ideea este ca, deoarece la site-ul pontes se lucreaza treptat din diferite directii si pe tehnologii diferite (html, php, etc) cea mai buna solutie este un crawler care sa indexeye site-ul similar cu google. Avantajele fata de google sunt ca putem indexa mai repede fiecare pagina nou aparuta.
Pana la urma, dupa vreo 4 alte scripturi incercate am gasit unul botezat Orca suplu si intelijent care este in testele sale finale.
Intre timp o sa amplasez provizoriu un mic formular de cautare in speranta ca Andreea il va muta unde doreste ea, conform exigentelor sale legate de design.
Singura problema sunt unele diacritice de prin site si forum care mai strica aspectul rezultatelor. In rest, totul pare ok
Puteti testa noua facilitate la adresa http://pontes.ro/cautare/cauta.php
Spor la cautat!
Campus
De mult timp aveam in gand sa caut un script bun pentru cautare pe site si acum, daca tot ne permit bazele de date imperialiste de la gazdele noastre americane, am inceput deja sa testez unul. Ideea este ca, deoarece la site-ul pontes se lucreaza treptat din diferite directii si pe tehnologii diferite (html, php, etc) cea mai buna solutie este un crawler care sa indexeye site-ul similar cu google. Avantajele fata de google sunt ca putem indexa mai repede fiecare pagina nou aparuta.
Pana la urma, dupa vreo 4 alte scripturi incercate am gasit unul botezat Orca suplu si intelijent care este in testele sale finale.
Intre timp o sa amplasez provizoriu un mic formular de cautare in speranta ca Andreea il va muta unde doreste ea, conform exigentelor sale legate de design.
Singura problema sunt unele diacritice de prin site si forum care mai strica aspectul rezultatelor. In rest, totul pare ok
Puteti testa noua facilitate la adresa http://pontes.ro/cautare/cauta.php
Spor la cautat!
Campus
sal!
Sunt sigur ca si Andreea e constructiva si va fi de acord cu orice idee de acest gen(constructiva...ca iar nu vor intelege unii decat ce vor )si daca tot sunt aici nu mai intru pe alt topic,caci ma cam preseaza si timpul, si va spun ca la oradea acum totul e ok in ce priveste conectarea,directa,fara subdomenii.O zi buna tuturor!
Sunt sigur ca si Andreea e constructiva si va fi de acord cu orice idee de acest gen(constructiva...ca iar nu vor intelege unii decat ce vor )si daca tot sunt aici nu mai intru pe alt topic,caci ma cam preseaza si timpul, si va spun ca la oradea acum totul e ok in ce priveste conectarea,directa,fara subdomenii.O zi buna tuturor!
- Manu
- General de divizie
- Mesaje: 4120
- Membru din: 02 Feb 2007, 01:15
- Localitate: Cluj-Napoca
- Contact:
Scriptul functioneaza foarte bine, important e ca actualizarea se face repede, iar de acum se poate cauta un cuvant cheie si pe site si pe forum... fiind mai sigur ca se va gasi orice pagina care il contine.
Ma bucur ca merge la Oradea, eu am vorbit cu cei de la RDS chiar zilnic, azi dimineata am notificat la Bucuresti problema, probabil ca aia inteleg mai bine ce inseamna un cache dns. La Cluj inca nu merge, sper sa nu mai dureze mult.
Ma bucur ca merge la Oradea, eu am vorbit cu cei de la RDS chiar zilnic, azi dimineata am notificat la Bucuresti problema, probabil ca aia inteleg mai bine ce inseamna un cache dns. La Cluj inca nu merge, sper sa nu mai dureze mult.
Errare humanum est, sed perseverare diabolicum...
In forum linguae Latinae venite! (via est: www.limbalatina.ro)
In forum linguae Latinae venite! (via est: www.limbalatina.ro)
Dupa ce mi-am petrecut sfarsitul de saptamana cu paianjenii din script am reusit, in sfarsit sa obtin o indexare cat de cat buna a site-ului si a forum-ului. Marea problema era ca unele pagini din site, mai ales celel dinamice generau alte zeci de pagini si asa mai departe.
Pentru a scapa de proliferari de acest fel am oprit accesul crawler-ului la url-urile ce contin urmatoarele string-uri:
parti ale forumului
/forum/privmsg.php - preview la posting pe forum
/forum/search.php - cautare pe forum folosita si pentru mesajele scrise de utilizatori
/forum/profile.php - profilurile de pe forum - nu contin info esentiale
/forum/posting.php - oistarea de mesaje pe forum
view=next, view=previous - utilizate in link-urile de sus de tipul topicul anterior, topicul urmator
start=0 -paginile initiale ale topicuui pe forum
forum/viewtopic.php?p= scurtatura la ultimul mesaj scris pe forum din lista de topicuri
highlight= - utilizata la cautare
watch= - utilizat la marcarea pentru urmarire
pentru album si condica
m=n-a - ordonarea dupa nume ascendent
m=n-d - ordonarea dupa nume descendent
m=t-a - ordonarea dupa titlu ascendent
m=t-d - ordonarea dupa titlu descendent
lit= - ordonarea dupa litera crawlerul ia informatiile astfel din paginare
ix=no - variabila introdusa de mine in unele url-uri in care nu am putut gasi string-uri de blocare. Poate fi utilizata in orice url daca nu doriti sa fie indexat pentru cautare cu sistemul nostru
hangman.php?letters= - bineinteles oaianjenilor lke place la nebunie spanzuratoarea. Zilele astea au jucat-o orrre in sir pana mi-am dat eu seama ce fac. Pagina de pornire a jocului este indexata dar scriptul nu are voie sa joace.
Acestea fiind spuse pana la urma la prima iindexare crawler-ul a parcurs 3049 / 3049 pagini pe site si pe forum din care a indexat 2692 pagini in 1981.86s cu o medie de procesare per link de 0.650s
In mod normal urmatoarele indexari vor fi mai rapide.
Indexarea se face automat in momentul in care cineva cauta ceva pe site si nu a avut loc nici o alta indexare in ultimele 24 de ore (termen ajustabil prin setari)
Datellllle indexate ocupa 17.12MB spatiu in baza de date
Proportia de encodate a paginilor e urmatoarea:
ISO-8859-2: 58.3% - In principal forum-ul
UTF-8: 39.4% - In principal site-ul
ISO-8859-1: 1.3%
Nespecificat 1.0%
Cam atat, scuze pt bombardamentul cu date inutile dar incepusem sa dezvilt o mica obsesie pentru scriptul asta si felul in care funcioneaza. Cautare placuta in continuare
Campus
Pentru a scapa de proliferari de acest fel am oprit accesul crawler-ului la url-urile ce contin urmatoarele string-uri:
parti ale forumului
/forum/privmsg.php - preview la posting pe forum
/forum/search.php - cautare pe forum folosita si pentru mesajele scrise de utilizatori
/forum/profile.php - profilurile de pe forum - nu contin info esentiale
/forum/posting.php - oistarea de mesaje pe forum
view=next, view=previous - utilizate in link-urile de sus de tipul topicul anterior, topicul urmator
start=0 -paginile initiale ale topicuui pe forum
forum/viewtopic.php?p= scurtatura la ultimul mesaj scris pe forum din lista de topicuri
highlight= - utilizata la cautare
watch= - utilizat la marcarea pentru urmarire
pentru album si condica
m=n-a - ordonarea dupa nume ascendent
m=n-d - ordonarea dupa nume descendent
m=t-a - ordonarea dupa titlu ascendent
m=t-d - ordonarea dupa titlu descendent
lit= - ordonarea dupa litera crawlerul ia informatiile astfel din paginare
ix=no - variabila introdusa de mine in unele url-uri in care nu am putut gasi string-uri de blocare. Poate fi utilizata in orice url daca nu doriti sa fie indexat pentru cautare cu sistemul nostru
hangman.php?letters= - bineinteles oaianjenilor lke place la nebunie spanzuratoarea. Zilele astea au jucat-o orrre in sir pana mi-am dat eu seama ce fac. Pagina de pornire a jocului este indexata dar scriptul nu are voie sa joace.
Acestea fiind spuse pana la urma la prima iindexare crawler-ul a parcurs 3049 / 3049 pagini pe site si pe forum din care a indexat 2692 pagini in 1981.86s cu o medie de procesare per link de 0.650s
In mod normal urmatoarele indexari vor fi mai rapide.
Indexarea se face automat in momentul in care cineva cauta ceva pe site si nu a avut loc nici o alta indexare in ultimele 24 de ore (termen ajustabil prin setari)
Datellllle indexate ocupa 17.12MB spatiu in baza de date
Proportia de encodate a paginilor e urmatoarea:
ISO-8859-2: 58.3% - In principal forum-ul
UTF-8: 39.4% - In principal site-ul
ISO-8859-1: 1.3%
Nespecificat 1.0%
Cam atat, scuze pt bombardamentul cu date inutile dar incepusem sa dezvilt o mica obsesie pentru scriptul asta si felul in care funcioneaza. Cautare placuta in continuare
Campus
- Manu
- General de divizie
- Mesaje: 4120
- Membru din: 02 Feb 2007, 01:15
- Localitate: Cluj-Napoca
- Contact:
Si cu autobuzele, troleibuzele, tramvaiele nu se plimba jucand spanzuratoarea?
Errare humanum est, sed perseverare diabolicum...
In forum linguae Latinae venite! (via est: www.limbalatina.ro)
In forum linguae Latinae venite! (via est: www.limbalatina.ro)
Ba da, tocmai de aceea am introdus in url-urile utilizate de scriptul respectiv variabila ix=no pentru link-urile care nu vreau sa fie indexate (ex liniile de la fiecare statie care oricum sunt indexate din lista principala)manu scrie:Si cu autobuzele, troleibuzele, tramvaiele nu se plimba jucand spanzuratoarea?