الزحف على المواقع
ازحف على المواقع العامة وأضِف محتواها إلى المحتوى لديك. يزور الزاحف الصفحات، ويستخرج المحتوى بصيغة Markdown، ويتيح لك مراجعته وتعديله قبل المعالجة.
كيفية الوصول
انتقل إلى Content في الشريط الجانبي، ثم انقر على تبويب Website.
كيفية الزحف على موقع
الخطوة 1: أدخِل الرابط
الصق رابط الموقع في حقل الإدخال (مثل https://docs.example.com). سيبدأ الزاحف من هذه الصفحة ويتّبع الروابط لاكتشاف المزيد من الصفحات.
الخطوة 2: ضبط الخيارات
| الخيار | الافتراضي | الوصف |
|---|---|---|
| المجلد الوجهة | بلا مجلد (الجذر) | اختر مجلدًا وجهة للمستندات المزحوفة |
| Single page only | معطّل | ازحف على الرابط المُدخَل فقط، ولا تتّبع الروابط |
| Respect robots.txt | مفعّل | التزم بقواعد الزحف في ملف robots.txt للموقع |
الخطوة 3: ابدأ الزحف
انقر على Crawl للبدء. يزور الزاحف الصفحات بدءًا من رابطك ويستخرج محتواها.
الخطوة 4: راقب التقدّم
- يعرض شريط التقدّم الصفحات المزحوفة مقابل الحدّ الأقصى لخطتك
- تظهر الصفحات في قائمة حيّة عند اكتشافها
- انقر على أيّ صفحة لمعاينة محتواها فورًا
- استخدم زرّ Cancel لإيقاف الزحف في أيّ وقت
يمكن تشغيل زحف واحد فقط في كل مرّة لكل مؤسّسة. انتظر اكتمال الزحف الحالي أو ألغِه قبل بدء آخر.
مراجعة الصفحات المزحوفة
بعد اكتمال الزحف، يمكنك مراجعة الصفحات وتعديلها قبل إضافتها إلى المحتوى لديك.
تعديل محتوى الصفحة
- انقر على أيّ صفحة في القائمة لفتح المُحرِّر
- عدّل العنوان ومحتوى markdown
- أزِل الأقسام غير ذات الصلة (قوائم التنقّل، التذييلات، الأشرطة الجانبية)
- انقر على Save للتحديث
يمكن تعديل الصفحات ذات الحالة “Pending” فقط. بمجرّد بدء المعالجة، لا يمكن تغيير الصفحات.
اختيار الصفحات ومعالجتها
- استخدم مربّعات الاختيار لتحديد الصفحات التي تريد الاحتفاظ بها
- استخدم Select All لتحديد جميع الصفحات المعلّقة دفعة واحدة
- اختر اختياريًا مجلدًا وجهة
- انقر على Process Selected
بعد بدء المعالجة، يُنقَل تلقائيًا إلى تبويب Documents حيث ستظهر المستندات الجديدة.
مرجع حالة الزحف
| الحالة | المعنى |
|---|---|
| Pending | الزحف في قائمة الانتظار للبدء |
| In Progress | يزور الصفحات بنشاط |
| Completed | تم الزحف على جميع الصفحات القابلة للوصول |
| Partial Success | تم زحف بعض الصفحات وفشل البعض الآخر |
| Failed | تعذّر اكتمال الزحف |
| Cancelled | أوقفته أنت |
استمرارية الجلسة
تبقى جلسة الزحف لديك صامدة عبر التنقّل وتحديث الصفحة:
- تُستعاد عمليات الزحف النشطة تلقائيًا عند عودتك إلى تبويب Website
- تتوفّر عمليات الزحف المكتملة للمراجعة لمدّة تصل إلى ساعة واحدة
نصائح
- راجع المحتوى المزحوف وعدّله قبل المعالجة لتحسين الجودة
- استخدم “Single page only” للصفحات الفردية التي تريد إضافتها بسرعة
- أبقِ “Respect robots.txt” مفعّلًا لاحترام تفضيلات مالك الموقع
- تظهر المستندات المزحوفة في تبويب Documents كملفات Markdown (.md)
أسئلة شائعة
س: كم عدد الصفحات التي يمكنني زحفها؟ ج: يعتمد الحدّ الأقصى لعدد الصفحات على خطتك. يتّبع الزاحف الروابط من رابط البداية حتى عمق ثابت — أو، إذا فعّلت Single page only، يتوقّف عند الرابط المُدخَل ويتخطّى اتّباع الروابط تمامًا.
س: هل يمكنني زحف صفحات خلف تسجيل الدخول؟ ج: لا. يمكن للزاحف الوصول إلى الصفحات المتاحة للعموم فقط. ستُتخطّى الصفحات الموجودة خلف المصادقة.
س: ما صيغة الصفحات المزحوفة؟ ج: يُستخرَج المحتوى كمستندات Markdown (.md) ويُعالَج عبر خطّ المعالجة القياسي (التقسيم، والتضمين، وفهرسة البحث).
س: لماذا فشلت بعض الصفحات؟ ج: قد تفشل الصفحات بسبب الحماية من الروبوتات (جدران حماية مثل Cloudflare)، أو أخطاء الخادم، أو المحتوى الفارغ. سيُظهِر الزحف حالة “Partial Success”.
س: هل يمكنني إعادة زحف الموقع نفسه؟ ج: نعم. ابدأ زحفًا جديدًا بالرابط نفسه. تُستبدَل الصفحات المزحوفة السابقة عند بدء زحف جديد.
س: أين تظهر الصفحات المُعالَجة؟ ج: في تبويب Documents بصفحة Content. تظهر كملفات Markdown (.md).
استكشاف الأخطاء وإصلاحها
الصفحات تُرجِع أخطاء 403 أو 503
قد يحظر الموقع الزواحف الآلية. الخيارات:
- اطلب من مالك الموقع إدراج
CuneiformBot/1.0في القائمة البيضاء - جرّب زحف صفحة محدّدة مع تفعيل “Single page only”
محتوى فارغ أو مشوّه
تستخدم بعض المواقع عرضًا مكثّفًا بـ JavaScript. يدعم الزاحف معظم الأطُر الحديثة، لكن:
- لن تعمل تطبيقات الصفحة الواحدة التي تتطلّب المصادقة
- قد يُلتقَط المحتوى المُحمَّل عبر التمرير اللانهائي جزئيًا
الزحف يبدو بطيئًا
- تستغرق كل صفحة بضع ثوانٍ للزحف (يشمل العرض وتحديد المعدّل)
- ستستغرق المواقع الأكبر ذات الصفحات الكثيرة عدّة دقائق
- يمكنك الإلغاء وإعادة المحاولة إذا بدا الزحف عالقًا