Website Crawling
Public websites crawl करें और content अपने Content में जोड़ें। Crawler pages visit करता है, content को Markdown के रूप में extract करता है, और processing से पहले review और edit करने देता है।
यहाँ कैसे जाएं
Sidebar में Content पर navigate करें, फिर Website tab पर click करें।
Website Crawl कैसे करें
Step 1: URL Enter करें
Input field में website URL paste करें (जैसे, https://docs.example.com)। Crawler इस page से शुरू होगा और अधिक pages discover करने के लिए links follow करेगा।
Step 2: Options Configure करें
| Option | Default | विवरण |
|---|---|---|
| Target Folder | No folder (root) | Crawled documents के लिए destination folder select करें |
| Single page only | Off | केवल entered URL crawl करें, links follow न करें |
| Respect robots.txt | On | Site की robots.txt crawling rules का पालन करें |
Step 3: Crawling शुरू करें
शुरू करने के लिए Crawl पर click करें। Crawler आपके URL से शुरू करके pages visit करता है और उनका content extract करता है।
Step 4: Progress Monitor करें
- Progress bar दिखाता है कि plan के maximum में से कितने pages crawl हुए
- Pages discover होते ही live list में दिखाई देते हैं
- किसी भी page पर click करके तुरंत उसका content preview करें
- Crawl किसी भी समय रोकने के लिए Cancel button उपयोग करें
प्रति organization एक समय में केवल एक crawl चल सकता है। दूसरा शुरू करने से पहले current crawl complete होने दें या उसे cancel करें।
Crawled Pages Review करना
Crawling complete होने के बाद, अपने Content में जोड़ने से पहले pages review और edit कर सकते हैं।
Page Content Edit करें
- Editor खोलने के लिए list में किसी page पर click करें
- title और markdown content edit करें
- Irrelevant sections हटाएं (navigation menus, footers, sidebars)
- Update के लिए Save पर click करें
केवल “Pending” status वाले pages edit किए जा सकते हैं। Processing शुरू होने के बाद pages change नहीं किए जा सकते।
Pages Select और Process करें
- रखने वाले pages select करने के लिए checkboxes उपयोग करें
- एक साथ सभी pending pages select करने के लिए Select All उपयोग करें
- Optional रूप से target folder चुनें
- Process Selected पर click करें
Processing शुरू होने के बाद, आप automatically Documents tab पर switch हो जाते हैं जहाँ नए documents दिखाई देंगे।
Crawl Status Reference
| Status | अर्थ |
|---|---|
| Pending | Crawl शुरू होने की queue में है |
| In Progress | Actively pages visit हो रहे हैं |
| Completed | सभी reachable pages crawl हो गए |
| Partial Success | कुछ pages crawl हुए, कुछ fail हुए |
| Failed | Crawl complete नहीं हो सका |
| Cancelled | आपने रोक दिया |
Session Persistence
आपका crawl session navigation और page refresh के बाद भी बना रहता है:
- Active crawls Website tab पर वापस आने पर automatically restore हो जाते हैं
- Completed crawls review के लिए 1 घंटे तक available रहते हैं
Tips
- Quality improve करने के लिए processing से पहले crawled content review और edit करें
- जल्दी individual pages जोड़ने के लिए “Single page only” उपयोग करें
- Site owner preferences follow करने के लिए “Respect robots.txt” enabled रखें
- Crawled documents Documents tab में Markdown (.md) files के रूप में दिखाई देते हैं
सामान्य प्रश्न
प्र: मैं कितने pages crawl कर सकता हूँ? उ: Maximum pages की संख्या आपके plan पर निर्भर करती है। Crawler आपके starting URL से configured depth limit तक links follow करता है।
प्र: क्या मैं login के पीछे वाले pages crawl कर सकता हूँ? उ: नहीं। Crawler केवल publicly available pages access कर सकता है। Authentication के पीछे के pages skip हो जाएंगे।
प्र: Crawled pages किस format में होते हैं? उ: Content Markdown (.md) documents के रूप में extract होता है और standard pipeline (chunking, embedding, और search indexing) से process होता है।
प्र: कुछ pages क्यों fail हुए? उ: Pages bot protection (Cloudflare जैसे firewalls), server errors, या empty content के कारण fail हो सकते हैं। Crawl “Partial Success” status दिखाएगा।
प्र: क्या मैं same site दोबारा crawl कर सकता हूँ? उ: हाँ। Same URL के साथ नया crawl शुरू करें। नया crawl शुरू होने पर पिछले crawled pages replace हो जाते हैं।
प्र: Processed pages कहाँ दिखाई देते हैं? उ: Content page के Documents tab में। वे Markdown (.md) files के रूप में दिखाई देते हैं।
Troubleshooting
Pages 403 या 503 Errors Return करते हैं
Site automated crawlers को block कर रही हो सकती है। Options:
- Site owner से
CuneiformBot/1.0को whitelist करने को कहें - “Single page only” enabled करके specific page crawl करने की कोशिश करें
Empty या Garbled Content
कुछ sites heavy JavaScript rendering उपयोग करती हैं। Crawler अधिकतर modern frameworks support करता है, लेकिन:
- Authentication require करने वाले single-page apps काम नहीं करेंगे
- Infinite scroll से load होने वाला content partially capture हो सकता है
Crawl धीमा लगता है
- प्रत्येक page crawl होने में कुछ seconds लगते हैं (rendering और rate limiting सहित)
- कई pages वाली बड़ी sites में कई minutes लग सकते हैं
- यदि crawl stuck लगे तो cancel करके retry कर सकते हैं