Skip to Content
কনটেন্টWebsite Crawling

Website Crawling

Public website crawl করে content আপনার Content-এ যোগ করুন। Crawler page visit করে, content Markdown হিসেবে extract করে এবং processing-এর আগে আপনাকে review ও edit করতে দেয়।

কীভাবে যাবেন

Sidebar-এ Content-এ navigate করুন, তারপর Website tab-এ click করুন।

কীভাবে Website Crawl করবেন

Step 1: URL দিন

Input field-এ website URL paste করুন (যেমন, https://docs.example.com)। Crawler এই page থেকে শুরু করে link follow করে আরও page আবিষ্কার করবে।

Step 2: বিকল্প Configure করুন

বিকল্পDefaultবিবরণ
Target Folderকোনো folder নেই (root)Crawl করা document-এর জন্য destination folder নির্বাচন করুন
Single page onlyOffশুধুমাত্র দেওয়া URL crawl করুন, link follow করবে না
Respect robots.txtOnSite-এর robots.txt crawling rule মেনে চলুন

Step 3: Crawling শুরু করুন

শুরু করতে Crawl-এ click করুন। Crawler আপনার URL থেকে শুরু করে page visit করে content extract করে।

Step 4: Progress পর্যবেক্ষণ করুন

  • Progress bar দেখায় কতটি page crawl হয়েছে বনাম আপনার plan-এর সর্বোচ্চ সীমা
  • Page আবিষ্কৃত হওয়ার সাথে সাথে live list-এ দেখা যায়
  • যেকোনো page-এ click করে তৎক্ষণাৎ content preview করুন
  • যেকোনো সময় crawl বন্ধ করতে Cancel button ব্যবহার করুন

প্রতি organization-এ একসাথে একটি মাত্র crawl চলতে পারে। নতুন crawl শুরু করার আগে বর্তমান crawl সম্পন্ন হতে দিন বা cancel করুন।

Crawl করা Page Review

Crawling সম্পন্ন হলে আপনার Content-এ যোগ করার আগে page review ও edit করতে পারেন।

Page Content Edit

  1. Editor খুলতে list-এ যেকোনো page-এ click করুন
  2. Titlemarkdown content edit করুন
  3. অপ্রাসঙ্গিক section (navigation menu, footer, sidebar) সরান
  4. Update করতে Save-এ click করুন

শুধুমাত্র “Pending” status-এর page edit করা যায়। Processing শুরু হলে page পরিবর্তন করা যায় না।

Page নির্বাচন ও Process

  1. যে page রাখতে চান সেগুলো checkbox দিয়ে নির্বাচন করুন
  2. সব pending page একসাথে নির্বাচন করতে Select All ব্যবহার করুন
  3. ঐচ্ছিকভাবে target folder বেছে নিন
  4. Process Selected-এ click করুন

Processing শুরু হলে আপনি স্বয়ংক্রিয়ভাবে Documents tab-এ চলে যাবেন যেখানে নতুন document দেখা যাবে।

Crawl Status Reference

Statusঅর্থ
PendingCrawl শুরু হওয়ার জন্য queue-তে আছে
In Progressসক্রিয়ভাবে page visit হচ্ছে
Completedসব reachable page crawl সম্পন্ন
Partial Successকিছু page crawl হয়েছে, কিছু ব্যর্থ
FailedCrawl সম্পন্ন হতে পারেনি
Cancelledআপনি বন্ধ করেছেন

Session Persistence

আপনার crawl session navigation ও page refresh-এও টিকে থাকে:

  • Active crawl Website tab-এ ফিরে এলে স্বয়ংক্রিয়ভাবে restore হয়
  • সম্পন্ন crawl ১ ঘণ্টা পর্যন্ত review-এর জন্য উপলব্ধ থাকে

পরামর্শ

  • মান উন্নত করতে processing-এর আগে crawl করা content review ও edit করুন
  • দ্রুত individual page যোগ করতে “Single page only” ব্যবহার করুন
  • Site owner-এর পছন্দ মেনে “Respect robots.txt” enabled রাখুন
  • Crawl করা document Markdown (.md) file হিসেবে Documents tab-এ দেখা যায়

সাধারণ প্রশ্ন

প্রশ্ন: কতটি page crawl করা যায়? উত্তর: সর্বোচ্চ page সংখ্যা আপনার plan-এর উপর নির্ভর করে। Crawler আপনার starting URL থেকে configured depth limit পর্যন্ত link follow করে।

প্রশ্ন: Login-এর পেছনের page crawl করা যায়? উত্তর: না। Crawler শুধুমাত্র publicly available page access করতে পারে। Authentication-এর পেছনের page skip করা হবে।

প্রশ্ন: Crawl করা page কোন format-এ থাকে? উত্তর: Content Markdown (.md) document হিসেবে extract করা হয় এবং standard pipeline-এ (chunking, embedding, ও search indexing) process হয়।

প্রশ্ন: কিছু page কেন ব্যর্থ হলো? উত্তর: Bot protection (Cloudflare-এর মতো firewall), server error, বা খালি content-এর কারণে page ব্যর্থ হতে পারে। Crawl “Partial Success” status দেখাবে।

প্রশ্ন: একই site পুনরায় crawl করা যায়? উত্তর: হ্যাঁ। একই URL দিয়ে নতুন crawl শুরু করুন। নতুন crawl শুরু হলে আগের crawl করা page replace হয়।

প্রশ্ন: Process করা page কোথায় দেখা যায়? উত্তর: Content page-এর Documents tab-এ। সেগুলো Markdown (.md) file হিসেবে দেখা যায়।

সমস্যা সমাধান

Page 403 বা 503 Error দিচ্ছে

Site automated crawler block করতে পারে। বিকল্প:

  • Site owner-কে CuneiformBot/1.0 whitelist করতে বলুন
  • “Single page only” enabled রেখে নির্দিষ্ট page crawl করার চেষ্টা করুন

খালি বা বিকৃত Content

কিছু site ভারী JavaScript rendering ব্যবহার করে। Crawler বেশিরভাগ আধুনিক framework সমর্থন করে, তবে:

  • Authentication প্রয়োজন এমন single-page app কাজ করবে না
  • Infinite scroll-এ load হওয়া content আংশিকভাবে capture হতে পারে

Crawl ধীর মনে হচ্ছে

  • প্রতিটি page crawl হতে কয়েক সেকেন্ড লাগে (rendering ও rate limiting সহ)
  • অনেক page-এর বড় site-এ কয়েক মিনিট লাগবে
  • Crawl আটকে গেছে মনে হলে cancel করে পুনরায় চেষ্টা করতে পারেন
Last updated on