conturi in euro

Cloudflare, gardianul webului, lanseaza instrumentul suprem pentru a-ti optimiza site-ul

Pe 10 martie, Cloudflare a lansat un nou instrument capabil sa indexeze integral un site web cu doar doua comenzi. Un anunt cel putin surprinzator din partea unei companii care promoveaza servicii de protectie impotriva bot-urilor…

/crawl: o schimbare de 180 de grade….

Cloudflare este adesea considerat scutul de referinta pe internet. Cifrele vorbesc de la sine: milioane de administratori de sistem si webmasteri ii incredinteaza cheile traficului lor pentru a bloca cererile rau intentionate, a neutraliza atacurile DDoS si, de asemenea, a impiedica scraping-ul (sustragerea de continut) de catre roboti neautorizati. Ne amintim de un serviciu lansat pentru a bloca robotii de explorare IA. Acesta este ADN-ul Cloudflare.

Cu toate acestea, am impresia ca Cloudflare a decis sa ne joace o festa. A fost dezvaluit un nou endpoint numit /crawl, asociat serviciului Browser Rendering. In spatele acestei simple URL se ascunde un instrument de scraping redutabil (si regretabil). Ii furnizati o adresa URL, iar serviciul se ocupa de parcurgerea arborelui site-ului, de executarea codului JavaScript (adesea folosit pentru a ascunde continutul de robotii clasici), de urmarirea link-urilor, apoi de returnarea datelor in formate gata de utilizare. HTML, Markdown sau JSON structurat, alegerea va apartine. Totul este servit pe tava.

Citeste si:  Google a cumparat Redux

Daca Cloudflare lanseaza acest instrument, o face pentru a-si asigura o cota de piata in sectorul inteligentei artificiale. De altfel, in articolul de blog care anunta aceasta noutate se precizeaza urmatoarele: „Este ideal pentru antrenarea modelelor, crearea de pipeline-uri RAG si cautarea sau monitorizarea continutului pe un site.”

Capacitati tehnice colosale

Dincolo de functionalitatea sa principala, acest instrument Cloudflare beneficiaza de toata puterea infrastructurii globale a Cloudflare. Astfel, cu doar doua comenzi (una pentru a initia crawl-ul, alta pentru a afisa rezultatele), puteti extrage un site web complet. Capacitatile acestui instrument sunt enorme:

Volum: pana la 100.000 de pagini crawl-ate per operatiune.

Tintire: configurarea adancimii de navigare si includerea/excluderea unor sectiuni intregi prin intermediul modelelor de URL-uri.

Optimizare: suport pentru crawl incremental, permitand tintirea doar a paginilor modificate de la ultima trecere (ideal pentru monitorizarea in timp real).

Extragere: recuperarea datelor structurate facilitata de inteligenta artificiala incorporata.

Cloudflare incearca sa se apere afirmand ca crawlerul sau este conceput pentru a respecta instructiunile din fisierul robots.txt, inclusiv intervalele dintre cereri (crawl-delay). Aceasta inseamna ca trebuie sa tina cont, in special, de URL-urile interzise la indexare. Totusi, este necesar ca acest fisier sa fie configurat.

„Punctul de terminare este un agent semnat care respecta in mod implicit fisierul robots.txt si controlul de indexare prin IA, ceea ce permite dezvoltatorilor sa se conformeze cu usurinta regulilor site-ului web si reduce riscul ca robotii de indexare sa ignore instructiunile proprietarilor de site-uri”, precizeaza Cloudflare.

Citeste si:  Pro și contra - totul despre aplicațiile de pariuri online

Instrumentul este deja disponibil pentru abonamentele Workers (atat gratuite, cat si cu plata).

Cauta toate stirile de ultima ora de pe Ghimpele. Vei afla tot ce s-a intamplat astazi in Romania.