Website Crawling
Public website crawl করে content আপনার Content-এ যোগ করুন। Crawler page visit করে, content Markdown হিসেবে extract করে এবং processing-এর আগে আপনাকে review ও edit করতে দেয়।
কীভাবে যাবেন
Sidebar-এ Content-এ navigate করুন, তারপর Website tab-এ click করুন।
কীভাবে Website Crawl করবেন
Step 1: URL দিন
Input field-এ website URL paste করুন (যেমন, https://docs.example.com)। Crawler এই page থেকে শুরু করে link follow করে আরও page আবিষ্কার করবে।
Step 2: বিকল্প Configure করুন
| বিকল্প | Default | বিবরণ |
|---|---|---|
| Target Folder | কোনো folder নেই (root) | Crawl করা document-এর জন্য destination folder নির্বাচন করুন |
| Single page only | Off | শুধুমাত্র দেওয়া URL crawl করুন, link follow করবে না |
| Respect robots.txt | On | Site-এর robots.txt crawling rule মেনে চলুন |
Step 3: Crawling শুরু করুন
শুরু করতে Crawl-এ click করুন। Crawler আপনার URL থেকে শুরু করে page visit করে content extract করে।
Step 4: Progress পর্যবেক্ষণ করুন
- Progress bar দেখায় কতটি page crawl হয়েছে বনাম আপনার plan-এর সর্বোচ্চ সীমা
- Page আবিষ্কৃত হওয়ার সাথে সাথে live list-এ দেখা যায়
- যেকোনো page-এ click করে তৎক্ষণাৎ content preview করুন
- যেকোনো সময় crawl বন্ধ করতে Cancel button ব্যবহার করুন
প্রতি organization-এ একসাথে একটি মাত্র crawl চলতে পারে। নতুন crawl শুরু করার আগে বর্তমান crawl সম্পন্ন হতে দিন বা cancel করুন।
Crawl করা Page Review
Crawling সম্পন্ন হলে আপনার Content-এ যোগ করার আগে page review ও edit করতে পারেন।
Page Content Edit
- Editor খুলতে list-এ যেকোনো page-এ click করুন
- Title ও markdown content edit করুন
- অপ্রাসঙ্গিক section (navigation menu, footer, sidebar) সরান
- Update করতে Save-এ click করুন
শুধুমাত্র “Pending” status-এর page edit করা যায়। Processing শুরু হলে page পরিবর্তন করা যায় না।
Page নির্বাচন ও Process
- যে page রাখতে চান সেগুলো checkbox দিয়ে নির্বাচন করুন
- সব pending page একসাথে নির্বাচন করতে Select All ব্যবহার করুন
- ঐচ্ছিকভাবে target folder বেছে নিন
- Process Selected-এ click করুন
Processing শুরু হলে আপনি স্বয়ংক্রিয়ভাবে Documents tab-এ চলে যাবেন যেখানে নতুন document দেখা যাবে।
Crawl Status Reference
| Status | অর্থ |
|---|---|
| Pending | Crawl শুরু হওয়ার জন্য queue-তে আছে |
| In Progress | সক্রিয়ভাবে page visit হচ্ছে |
| Completed | সব reachable page crawl সম্পন্ন |
| Partial Success | কিছু page crawl হয়েছে, কিছু ব্যর্থ |
| Failed | Crawl সম্পন্ন হতে পারেনি |
| Cancelled | আপনি বন্ধ করেছেন |
Session Persistence
আপনার crawl session navigation ও page refresh-এও টিকে থাকে:
- Active crawl Website tab-এ ফিরে এলে স্বয়ংক্রিয়ভাবে restore হয়
- সম্পন্ন crawl ১ ঘণ্টা পর্যন্ত review-এর জন্য উপলব্ধ থাকে
পরামর্শ
- মান উন্নত করতে processing-এর আগে crawl করা content review ও edit করুন
- দ্রুত individual page যোগ করতে “Single page only” ব্যবহার করুন
- Site owner-এর পছন্দ মেনে “Respect robots.txt” enabled রাখুন
- Crawl করা document Markdown (.md) file হিসেবে Documents tab-এ দেখা যায়
সাধারণ প্রশ্ন
প্রশ্ন: কতটি page crawl করা যায়? উত্তর: সর্বোচ্চ page সংখ্যা আপনার plan-এর উপর নির্ভর করে। Crawler আপনার starting URL থেকে configured depth limit পর্যন্ত link follow করে।
প্রশ্ন: Login-এর পেছনের page crawl করা যায়? উত্তর: না। Crawler শুধুমাত্র publicly available page access করতে পারে। Authentication-এর পেছনের page skip করা হবে।
প্রশ্ন: Crawl করা page কোন format-এ থাকে? উত্তর: Content Markdown (.md) document হিসেবে extract করা হয় এবং standard pipeline-এ (chunking, embedding, ও search indexing) process হয়।
প্রশ্ন: কিছু page কেন ব্যর্থ হলো? উত্তর: Bot protection (Cloudflare-এর মতো firewall), server error, বা খালি content-এর কারণে page ব্যর্থ হতে পারে। Crawl “Partial Success” status দেখাবে।
প্রশ্ন: একই site পুনরায় crawl করা যায়? উত্তর: হ্যাঁ। একই URL দিয়ে নতুন crawl শুরু করুন। নতুন crawl শুরু হলে আগের crawl করা page replace হয়।
প্রশ্ন: Process করা page কোথায় দেখা যায়? উত্তর: Content page-এর Documents tab-এ। সেগুলো Markdown (.md) file হিসেবে দেখা যায়।
সমস্যা সমাধান
Page 403 বা 503 Error দিচ্ছে
Site automated crawler block করতে পারে। বিকল্প:
- Site owner-কে
CuneiformBot/1.0whitelist করতে বলুন - “Single page only” enabled রেখে নির্দিষ্ট page crawl করার চেষ্টা করুন
খালি বা বিকৃত Content
কিছু site ভারী JavaScript rendering ব্যবহার করে। Crawler বেশিরভাগ আধুনিক framework সমর্থন করে, তবে:
- Authentication প্রয়োজন এমন single-page app কাজ করবে না
- Infinite scroll-এ load হওয়া content আংশিকভাবে capture হতে পারে
Crawl ধীর মনে হচ্ছে
- প্রতিটি page crawl হতে কয়েক সেকেন্ড লাগে (rendering ও rate limiting সহ)
- অনেক page-এর বড় site-এ কয়েক মিনিট লাগবে
- Crawl আটকে গেছে মনে হলে cancel করে পুনরায় চেষ্টা করতে পারেন