ผู้เชี่ยวชาญ Semalt: คำแนะนำในการป้องกันไม่ให้ Google รวบรวมข้อมูล Sitemap เก่า

เมื่อเว็บไซต์ของคุณเติบโตขึ้นคุณจะพยายามอย่างดีที่สุดเพื่อหาวิธีปรับปรุงการมองเห็นและความน่าเชื่อถือบนอินเทอร์เน็ต บางครั้งผลกระทบของวิธีการที่เว็บไซต์ของเราใช้ในการทำงานยังคงอยู่และนี่คือสิ่งที่เราควรใส่ใจ
รับเคล็ดลับต่อไปนี้จาก Max Bell ผู้จัดการความสำเร็จของลูกค้าของ Semalt เพื่อป้องกันไม่ให้ Google รวบรวมข้อมูลเว็บไซต์เก่า

ไม่กี่สัปดาห์ที่ผ่านมาลูกค้าคนหนึ่งของฉันบอกฉันว่าเขามีเว็บไซต์อีคอมเมิร์ซ มันผ่านการเปลี่ยนแปลงต่าง ๆ : จากโครงสร้าง URL เป็นแผนผังเว็บไซต์ทุกอย่างได้รับการแก้ไขเพื่อให้เว็บไซต์มองเห็นได้มากขึ้น
ลูกค้าสังเกตเห็นการเปลี่ยนแปลงบางอย่างใน Google Search Console และพบข้อผิดพลาดในการรวบรวมข้อมูลที่นั่น สิ่งที่เขาสังเกตเห็นว่ามี URL ทั้งเก่าและใหม่จำนวนมากที่สร้างการรับส่งข้อมูลปลอม อย่างไรก็ตามบางส่วนของพวกเขากำลังแสดง Access Denied 403 และ Not Found 404 ข้อผิดพลาด
ลูกค้าของฉันบอกฉันว่าปัญหาที่ใหญ่ที่สุดที่เขามีคือแผนผังไซต์แบบเก่าที่มีอยู่ในโฟลเดอร์ราก เว็บไซต์ของเขาใช้ปลั๊กอิน Google XML Sitemaps ที่หลากหลายก่อนหน้านี้ แต่ตอนนี้เขาขึ้นอยู่กับ WordPress SEO ของ Yoast สำหรับแผนผังไซต์ อย่างไรก็ตามปลั๊กอินแผนผังไซต์แบบเก่าต่าง ๆ สร้างความยุ่งเหยิงให้เขา มีอยู่ในโฟลเดอร์รูทที่ชื่อว่า sitemap.xml.gz เนื่องจากเขาเริ่มใช้ปลั๊กอิน Yoast สำหรับสร้างแผนผังไซต์สำหรับโพสต์ทุกประเภทหน้าและแท็กเขาไม่ต้องการปลั๊กอินเหล่านั้นอีกต่อไป ขออภัยบุคคลนั้นไม่ได้ส่ง sitemap.xml.gz ไปยัง Google Search Console เขาส่งแผนผังไซต์ Yoast ของเขาเท่านั้นและ Google ก็รวบรวมข้อมูลแผนผังไซต์เก่าของเขาด้วย
จะรวบรวมข้อมูลอะไร
บุคคลนั้นไม่ได้ลบแผนผังไซต์เก่าออกจากโฟลเดอร์รูทดังนั้นจึงได้รับการจัดทำดัชนีด้วย ฉันกลับไปหาเขาและอธิบายว่าแผนผังไซต์เป็นเพียงข้อเสนอแนะสำหรับสิ่งที่ควรรวบรวมข้อมูลในผลลัพธ์ของ เครื่องมือ ค้นหา คุณอาจคิดว่าการลบแผนผังไซต์เก่าจะทำให้ Google ไม่สามารถรวบรวมข้อมูล URL ที่หมดอายุ แต่นั่นไม่เป็นความจริง ประสบการณ์ของฉันบอกว่า Google พยายามจัดทำดัชนี URL เก่าทุกวันหลายครั้งทำให้แน่ใจว่าข้อผิดพลาด 404 เป็นจริงและไม่ใช่อุบัติเหตุ
Googlebot สามารถจัดเก็บหน่วยความจำของลิงก์เก่าและใหม่ที่จะพบในแผนผังไซต์ของคุณ มันเข้าชมเว็บไซต์ของคุณอย่างสม่ำเสมอทำให้แน่ใจว่าทุกหน้ามีการจัดทำดัชนีอย่างถูกต้อง Googlebot พยายามประเมินว่าลิงก์นั้นถูกต้องหรือไม่ถูกต้องเพื่อที่ผู้เข้าชมจะไม่ประสบปัญหาใด ๆ
เห็นได้ชัดว่าผู้ดูแลเว็บจะสับสนเมื่อจำนวนข้อผิดพลาดในการรวบรวมข้อมูลเพิ่มขึ้น พวกเขาทั้งหมดต้องการลดระดับลงอย่างมาก จะแจ้งให้ Google ทราบอย่างไรหากไม่สนใจแผนผังไซต์เก่าทั้งหมด คุณสามารถทำได้โดยฆ่าการรวบรวมข้อมูลแผนผังไซต์ที่ไม่ต้องการและแปลกทั้งหมด ก่อนหน้านี้วิธีเดียวที่จะทำให้เป็นไปได้คือไฟล์. htaccess ขอบคุณ WordPress ที่ให้ปลั๊กอินแก่เรา

เว็บไซต์ WordPress มีไฟล์นี้ในโฟลเดอร์รูท ดังนั้นคุณเพียงแค่ต้องเข้าถึง FTP และเปิดใช้งานไฟล์ที่ซ่อนอยู่ใน cPanel ไปที่ตัวเลือกจัดการไฟล์เพื่อแก้ไขไฟล์นี้ตามความต้องการของคุณ คุณไม่ควรลืมว่าการแก้ไขอย่างไม่ถูกต้องอาจทำให้เว็บไซต์ของคุณเสียหายดังนั้นคุณควรสำรองข้อมูลทั้งหมด
เมื่อคุณเพิ่มตัวอย่างในไฟล์แล้ว URL ที่หมดอายุทั้งหมดจะหายไปจากข้อผิดพลาดในการรวบรวมข้อมูลของคุณในเวลาไม่นาน คุณไม่ควรลืมว่า Google ต้องการให้เว็บไซต์ของคุณทำงานต่อไปและลดโอกาสของข้อผิดพลาด 404