1. Hiện tại có một số member mạo danh BQT để giao dịch trên diễn đàn và đã LỪA ĐẢO khá nhiều tại chuyên mục Adwords... Mọi người cảnh giác và đọc bài: Giới thiệu giao dịch đảm bảo bởi @Admin

Kiểm soát SERP thu thập dữ liệu để index và xếp hạng tốt hơn

Thảo luận trong 'Onpage Seo - Tối ưu các yếu tố trên trang web' bắt đầu bởi thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không?, 30/7/15.

Lượt xem: 2,281
  1. thegioiseo

    thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không? Điều Hành Viên

    Gia nhập:
    22/5/11
    Bài viết:
    1,206
    Đã được thích:
    2,687
    (Thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không?) - Chào các bạn! Hôm nay, chúng ta sẽ thảo luận về việc kiểm soát công cụ tìm kiếm thu thập dữ liệu, ngăn chặn bots và gửi bots đến những nơi mà chúng ta muốn, giới hạn chúng đến những nơi mà chúng ta không muốn. Chúng ta sẽ nói sơ qua một chút về ngân sách thu thập dữ liệu và những gì bạn nên và không nên index.

    Như đã nói, hôm nay tôi muốn thảo luận về cách mà chúng ta có thể điều khiển robot. Nó bao gồm 3 thành phần chính: robots.txt, robot meta và đề cập một chút đến thẻ nofollow khi nói về việc kiểm soát bots.

    Có một vài thành phần khác mà chúng ta sẽ thảo luận thêm như Webmaster Tools (bây giờ là Google Search Console) và mã trạng thái URL. Và bây giờ chúng ta hãy cùng nhau thảo luận về chúng.

    Robots.txt sống tại yoursite.com/robots.txt, nó nói cho trình thu thập biết nên hay không nên truy cập, nó không phải lúc nào cũng được Google và Bing tôn trọng. Vì vậy, khi bạn nói "hey, disallow nó" và sau đó bạn nhìn thấy URL xuất hiện và bạn lo lắng không biết điều gì sẽ xảy ra. Google và Bing nghĩ rằng bạn đã thực hiện một hành động nào đó sai lầm, họ nghĩ rằng "hey, có rất nhiều liên kết trỏ đến nội dung này, có rất nhiều người ghé thăm và chăm sóc nội dung này, có thể bạn không muốn chúng tôi chặn nó".

    Kiem soat SERP thu thap du lieu de index va xep hang tot hon
    Meta robots thì hơi khác một chút.Nó sống tại headers của các trang cá nhân, vì vậy bạn chỉ có thể kiểm soát từng trang một với thẻ meta robots. Điều đó nói rằng công cụ tìm kiếm nên hoặc không nên giữ trang này để index và chúng nên follow các liên kết này trên trang đó và nó thường được kính trọng hơn, bởi nó là một level trang cá nhân; Google và Bing thường có xu hướng tin tưởng thẻ meta robots.
    Kiem soat SERP thu thap du lieu de index va xep hang tot hon 2
    Thẻ nofollow tồn tại trên một liên kết cá nhân trên một trang. Nó không nói với công cụ tìm kiếm nơi để crawl hoặc không được crawl.

    Điểm thú vị về meta robot và robots.txt là chúng làm việc cùng nhau.

    Ví dụ, chúng tôi có một trang "blogtest.html" trên doamin của chúng tôi và chúng tôi nói rằng "tất cả các tác nhân người dùng, bạn không được phép crawl blogtest.html. Vì vậy, sau đó chúng tôi đã làm gấp đôi để chắc chắn rằng nó không hiển thị trong kết quả tìm kiếm, chúng tôi sẽ đưa vào thẻ meta robot:
    Mã:
    Do đó, "noindex, follow" cho các công cụ tìm kiếm thu thập thông tin, chúng có thể follow các liên kết trên trang nhưng chúng không thể index trang đặc biệt này.

    Sau đó, bạn đi và chạy tìm kiếm với "blog test" và mọi người trong team của tôi đều ngạc nhiên "What the heck!? WTF? Why am I seeing this page show up in search results?"

    Kiem soat SERP thu thap du lieu de index va xep hang tot hon 3
    Câu trả lời là, bạn đã nói cho công cụ rằng chúng không được crawl trang. Nhưng chúng vẫn đặt nó vào kết quả. Lý do nó hiển thị là bởi chúng không thể nhìn thấy noindex, tất cả những gì họ nhìn thấy là Disallow.

    Vì vậy, nếu bạn muốn một cái gì đó thực sự được loại bỏ, không được nhìn thấy trong kết quả tìm kiếm, bạn không thể chỉ disallow một trình thu thập. Bạn có thể dùng meta "noindex" và bạn phải cho phép chúng crawl nó.

    Vậy điều này cực kỳ phức tạp. Robots.txt có thể hữu ích nếu chúng ta cố gắng tiết kiệm băng thông thu thập dữ liệu nhưng nó không phải lúc nào cũng là lý tưởng cho việc ngăn ngừa một trang web được hiển thị trong kết quả tìm kiếm. Tôi sẽ không khuyên bạn làm theo cách này, bạn nên làm những gì mà chúng tôi nghĩ rằng giống như Twitter đang cố gắng để làm gần đây "Google, don't crawl the www version of twitter.com.". Những gì bạn cần làm là rel canonical-ing hoặc sử dụng 301.

    Meta robots có thể cho phép việc crawl và follow liên kết trong khi disallow việc index, điều đó là tuyệt vời nhưng nó đòi hỏi phải có budget crawl và bạn vẫn có thể duy trì được việc index.

    Nhìn chung, thẻ nofollow không phải là thực sự hữu ích cho việc kiểm soát bots hay duy trì việc index.

    Webmaster Tools (bây giờ là Google Search Console) có một số điều đặc biệt, nó cho phép bạn hạn chế truy cập hoặc loại bỏ một kết quả từ các kết quả tìm kiếm. Ví dụ, nếu bạn đã 404 một cái gì đó hoặc nếu bạn đã nói với chúng không crawl nhưng nó vẫn hiển thị ở đó, bạn có thể nói "đừng làm điều đó". Có một vài giao thức thu thập dữ liệu khác mà bạn có thể làm.

    Và sau đó là mã trạng thái URL - đó là cách hợp lệ để làm việc nhưng chúng thay đổi những gì đang xảy ra trên các trang của bạn.

    Nếu bạn không may mắn bằng cách sử dụng 404 để loại bỏ một cái gì đó, bạn có thể sử dụng 410 để loại bỏ vĩnh viễn một cái gì đó từ chỉ mục. Chỉ cần lưu ý rằng khi bạn sử dụng 410, nó có thể mất thời gian dài nếu bạn muốn recrawl hoặc reindex và bạn muốn nói với công cụ tìm kiếm 410 "đã trở lại" để loại bỏ vĩnh viễn.

    Chuyển hướng vĩnh viễn 310 và 302 - chuyển hướng tạm thời, chúng tôi sẽ nói chuyện về nó tại đây.

    Bây giờ chúng ta hãy đi sâu vào một số trường hợp cụ thể của "loại nội dung nào nên và không nên để công cụ tìm kiếm crawl và index " trong phiên bản tiếp theo này.

    4 vấn đề crawl/index cần được giải quyết

    Chúng tôi có 4 vấn đề lớn liên quan đến việc crawl và index.

    1. Nội dung đó chưa sẵn sàng

    "Nếu tôi có nội dung chất lượng, tôi vẫn cố gắng để cải thiện nó - nó chưa sẵn sàng, nó chưa sẵn sàng cho Google, tôi có một loạt các sản phẩm và tôi chỉ có các mô tả từ nhà sản xuất và tôi cần mọi người truy cập vào chúng, vì vậy tôi viết lại nội dung và tạo ra giá trị duy nhất trên các trang đó - chỉ là chúng chưa sẵn sàng, tôi nên làm gì với điều này?".

    Lựa chọn của tôi là crawl và index? Nếu tôi có số lượng lớn, có thể là hàng nghìn, hàng chục nghìn, hàng trăm nghìn trang thì tôi sẽ đi theo con đường robots.txt. Tôi không cho phép các trang này được crawl và sau đó tôi nhận được một tập các URL đã sẵn sàng, sau đó tôi có thể cho phép việc crawl và thậm chí có thể submit chúng đến Google thông qua sitemap XML.

    Nếu tôi đang nói về số lượng nhỏ - vài chục hoặc vài trăm trang, tôi sẽ chỉ sử dụng meta robots noindex và sau đó tôi đặt noindex off trên các trang đó như thể chúng đang sẵn sàng để Google tiêu hóa. Và một lần nữa, tôi có thể sử dụng sitemap XML và bắt đầu submit khi chúng sẵn sàng.

    Kiem soat SERP thu thap du lieu de index va xep hang tot hon 4

    2. Đối phó với nội dung trùng lặp hoặc sơ sài

    Câu hỏi "Tôi có nên noindex, nofollow hoặc ngăn chặn việc crawl trên phần lớn các URL trùng lặp hoặc nội dung sơ sài?". Tôi có đưa ra một ví dụ sau đây. Tôi có một shop thương mại điện tử, tôi bán Star Wars t-shirt, vì vậy tôi nghĩ rằng starwarsshirt.html và liên kết ra một phiên bản lớn hơn và đó là một trang HTML riêng lẻ. Nó liên kết đến những màu sắc khác nhau, trong đó thay đổi URL của trang, vì vậy tôi có một phiên bản màu xám, xanh dương và đen. Vâng đó là 4 trang với cùng một sản phẩm, vì vậy tôi sẽ không khuyên bạn disallow việc thu thập trên các trang đó và tôi cũng không khuyên bạn noindex chúng. Vậy tôi sẽ làm gì với rel canonical trên đó.

    Hãy nhớ rằng, rel canonical có thể disallow. Vì vậy, nếu tôi đã disallow nó, Google không thể nhìn thấy rel canonical trở lại, do đó, nếu một người nào đó liên kết đến phiên bản màu xanh thay vì phiên bản mặc định thì ngay bây giờ có khả năng tôi không nhận được các liên kết đó. Vì vậy, tôi thực sự muốn sử dụng rel canonical, cho phép index và cho phép nó được crawl. Nếu bạn đã thực sự cảm thấy thích nó, bạn cũng có thể đặt một meta "noindex, follow" trên các trang này nhưng tôi không nghĩ rằng nó cần thiết và một lần nữa nó có thể được can thiệp với thẻ rel canonical.

    slide

    3. Đi qua link equity mà không xuất hiện trong kết quả tìm kiếm

    Câu hỏi "Nếu tôi muốn đi qua link equity thông qua một tập các trang mà những trang này không xuất hiện trong kết quả tìm kiếm thì có lẽ là có một công cụ điều hướng nào đó điều hướng thông qua các trang của tôi nhưng tôi không cần chúng xuất hiên trong kết quả tìm kiếm, vậy tôi nên sử dụng nó như nào?".

    Điều tôi muốn nói ở đây là bạn có thể sử dụng meta robot để nói "đừng index trang nhưng dofollow các liên kết đó trên trang".

    Nhiều người nói rằng disallow chúng trong robots.txt nhưng họ đã nhầm. Điều gì sẽ xảy ra nếu bạn disallow việc thu thập. Google không thể nhìn thấy noindex. Chúng không biết rằng chúng có thể follow nó. Như đã nói trước đây, thỉnh thoảng Google cũng không tuân lệnh theo robots.txt nhưng bạn không thể dựa vào hành vi đó. Hãy tin rằng disallow trong robots.txt sẽ ngăn chặn việc crawl. Vì vậy, tôi nói rằng, meta robot "noindex, follow" là cách để làm điều này.
    Kiem soat SERP thu thap du lieu de index va xep hang tot hon 6

    4. Loại trang kết quả tìm kiếm

    Câu hỏi: "Tôi nên làm gì với loại trang kết quả tìm kiếm?". Google đã nói rất nhiều lần rằng họ không thích kết quả tìm kiếm của bạn từ động cơ bên trong của bạn xuất hiện trong kết quả tìm kiếm của họ và vì đây có thể là một trường hợp sử dụng khéo léo.

    Đôi khi một trang kết quả tìm kiếm - một trang có nhiều loại kết quả và nó có thể đến từ một cơ sở dữ liệu của các loại nội dung mà bạn có trên trang web của bạn - có thể là một kết quả rất tốt cho người tìm kiếm hoặc những người muốn xem những gì bạn cung cấp. Yelp làm điều này: Khi bạn nói "Tôi đang tìm kiếm các nhà hàng ở Seattle, WA," chúng sẽ cung cấp cho bạn một danh sách các kết quả tìm kiếm và Google không muốn ai đó xuất hiện bởi vì trang này đã cung cấp một kết quả tuyệt vời. Nhưng bạn nên làm những gì mà Yelp chưa làm. Bạn hãy cung cấp một trang có giá trị, đó không chỉ là danh sách các kết quả tìm kiếm mà đó còn là một trang đích chi tiết.

    Nếu bạn có một từ khóa dài hoặc nếu bạn muốn nói "hey, công cụ tìm kiếm nội bộ của chúng tôi và chúng tôi không nghĩ rằng chúng ta cần phải thực hiện các nỗ lực để đưa mọi người đến trang đích". Sau đó, bạn có thể sử dụng Disallow trong robots.txt để ngăn chặn họ.

    Bạn nên thận trọng ở đây, bởi đôi khi nó có thể làm tổn hại SEO và lưu lượng truy cập của bạn. Đôi khi những trang này có thể thực sự hữu ích cho mọi người. Vì vậy, hãy kiểm tra các phân tích của bạn. Bạn sẽ nhìn thấy rất nhiều trang web làm điều này trong tập tin robots.txt của họ.

    Kiem soat SERP thu thap du lieu de index va xep hang tot hon 7

    Tôi hy vọng bạn đã có một số câu hỏi lớn về việc crawl, index và kiểm soát robot, ngăn chặn và cho phép robot. Chúc bạn thành công!


  2. nghe nói cập nhật nội dung thường xuyên đúng thời điểm sẽ index tốt, bot sẽ ghé thăm thường xuyên đúng giờ
  3. Nguyễn Đình Mùa

    Nguyễn Đình Mùa Top 9

    Gia nhập:
    2/12/14
    Bài viết:
    227
    Đã được thích:
    8
    Nơi ở:
    Long biên-Hà nội
    Web:
    Đối phó với nội dung trùng lặp hoặc sơ sài . Cái này hiện vẫn chính là vấn đề hàng đầu, Nếu nội dung cập nhật thường xuyên mà content sơ sài cũng không ổn
  4. nguyentruong17

    nguyentruong17 Seo bố láo

    Gia nhập:
    4/8/14
    Bài viết:
    505
    Đã được thích:
    59
    Nơi ở:
    Hà Nội
    Vấn đề này dịch hơi hàn lâm và khó hiểu bác ạ. Nếu em không nhầm thì bài này sẽ được tóm tắt như sau:
    1. Khi nội dung website chưa sẵn sàng thì nên khóa index lại bằng thẻ meta=noindex
    2. Khi xuất hiện tình trạng trùng lặp nội dung thì sử dụng redirect 301, 302 hoặc thẻ rel=Canonical
    4. Và với 1 trang tìm kiếm thì google không thích thú lắm do csdl của site đơn giản bot không quét được :)
  5. Phuongxoan_49

    Phuongxoan_49 Top 8

    Gia nhập:
    27/11/14
    Bài viết:
    535
    Đã được thích:
    66
    Nơi ở:
    Xuân Thủy, Cầu Giấy
    Web:
    Nghe nói khoảng thời gian bot nó vào index nhanh là khoảng thời gian từ 8-10h tối ( mình không nhớ bác nào chia sẻ khoảng thời gian này) Còn theo mình bác cứ up bài viết đều tay ngày nào cũng thế thì bot nó có thói quen đi vào site thường xuyên
  6. thienlyma90

    thienlyma90 Top 7

    Gia nhập:
    7/6/13
    Bài viết:
    1,329
    Đã được thích:
    86
    Nơi ở:
    HN
    Web:
    Thời gian bot index có thể do bạn tự tạo ra được bạn à! Bạn cứ đăng bài mới vào 1 giờ nhất định và đều đặn thì tới khung giờ đó bot sẽ vào index trang của bạn thôi
    vannguyen thích bài này.
  7. heavenshop

    heavenshop Top 9

    Gia nhập:
    17/4/13
    Bài viết:
    164
    Đã được thích:
    5
    Web:
    Web chất lượng thì index nhanh lắm bạn.
    Không cần chờ khoảng thời gian như bạn nói đâu.!
  8. Hoàng Luyến

    Hoàng Luyến Top 7

    Gia nhập:
    9/3/15
    Bài viết:
    433
    Đã được thích:
    191
    Nơi ở:
    Hà Nội
    Web:
    Bạn nói đúng ý mình đấy, con bọ nó chỉ là phần mềm thôi và không phải lúc nào nó cũng Index và liên tục. Dù web mới hay cũ đều cần sử dụng Tool hoặc lên thời gian biểu đăng bài đúng giờ nó sẽ tự vào lấy tin!
    vannguyen thích bài này.
  9. thaomocxanh

    thaomocxanh Top 9

    Gia nhập:
    5/2/14
    Bài viết:
    69
    Đã được thích:
    4
    nếu nội dung mình có tài liệu đổ 1 lần trong một ngày khoảng 100 bài thì có gọi là spam không các ban? mình thì nghĩ làm vậy cũng giống như khóa index rồi mở lại thôi, có ảnh hưởng gì đến tỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không? không.
  10. dungca

    dungca Top 9

    Gia nhập:
    8/8/14
    Bài viết:
    482
    Đã được thích:
    17
    Nơi ở:
    hà nội
    mọi người cứ nói cập nhật bài viết thường xuyên thì box nó sẽ về em nghĩ với hàng ngàn website hiện nay trang nào cũng làm như vậy thì bost cập nhật sao nổi nên đi viết bài vàothời gian cố định để bost sẽ cập nhật thì hay hơn
  11. tumap.it

    tumap.it Top 9

    Gia nhập:
    31/10/13
    Bài viết:
    163
    Đã được thích:
    4
    Xây dựng nội dung đều đặn hoặc theo hình mũi tên thường xuyên và ko copy thì việc gg index ko còn là vấn đề khó khăn.
  12. hlailinh

    hlailinh Top 9

    Gia nhập:
    5/8/14
    Bài viết:
    207
    Đã được thích:
    7
    Web:
    ôi chán quá, em không còn nghĩ ra được chủ đề gì đề viết bài nữa rồi :(
  13. dhkt7a1hn

    dhkt7a1hn Top 9

    Gia nhập:
    20/7/15
    Bài viết:
    38
    Đã được thích:
    2
    Web:
    viết viết bài thường xuyên đúng khung giờ sẽ tốt rất nhiều cho web, cái này do mỗi ng có cách làm khác nhau thôi
  14. kingbin

    kingbin Top 8

    Gia nhập:
    2/4/14
    Bài viết:
    274
    Đã được thích:
    25
    Cũng tùy thôi bạn, bạn mà làm mấy cái site có nguồn nội dung nghèo hoặc sai liên mà nặng về tính kỹ thuật như máy móc các kiểu,... thì không copy hay cập nhập không thường xuyên là chuyên quá bình thường.
  15. Kiên Nguyễn Blog

    Kiên Nguyễn Blog Top 9

    Gia nhập:
    25/3/15
    Bài viết:
    150
    Đã được thích:
    16
    Web:
    Quá nhiều chứ không phải là nhiều, bạn nên viết tâm 10 bài là đẹp. Quan trọng là chất lượng như thế nào thôi, nhiều trang lắm nội dung mà thua xa site ít nội dung nhưng mà chất.
  16. vannguyen

    vannguyen Top 8

    Gia nhập:
    5/4/15
    Bài viết:
    305
    Đã được thích:
    34
  17. notviet022

    notviet022 Top 9

    Gia nhập:
    15/8/14
    Bài viết:
    191
    Đã được thích:
    8
    Nơi ở:
    Hồ Chí Minh
    Web:
    cập nhật nội dung thường xuyên.. đúng giờ của bot là ok rồi index nhanh hay chậm còn nhờ đến trang web đó uy tín cỡ nào..như mấy trang báo điện tử nổi tính đó index nhanh lắm vidụ: tinhte.vn
  18. banquang1

    banquang1 Top 9

    Gia nhập:
    19/7/15
    Bài viết:
    142
    Đã được thích:
    2
    Kết luận câu chung là cập nhật nội dung nhanh và đúng giờ.
    :D thanks các bạn nhiều
  19. dungca

    dungca Top 9

    Gia nhập:
    8/8/14
    Bài viết:
    482
    Đã được thích:
    17
    Nơi ở:
    hà nội
    các tỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không?er chủ yếu là kỹ thuật nên phần contern thường không chuyên nên rất hay bí dẫn đến tường hợp trùng lặp nội dung và spam tràn lan
  20. cangbecangto

    cangbecangto Top 10

    Gia nhập:
    23/7/15
    Bài viết:
    26
    Đã được thích:
    6
    Web:
    Cái này làm khó quá bác ơi! Nội dung xoay quanh một vấn đề viết đi viết mãi nó cũng không có gì mới lại nữa bác ak!

Nội quy khi thảo luận:

Dù bạn có cố tình spam bằng cách nào khi BQT diễn đàn phát hiện sẽ lập tức banned nick và xoá toàn bộ bài viết của bạn. Ngoài ra khi phát hiện ra Spam hãy gửi thông báo cho BQT diễn đàn. Hãy suy nghĩ trước khi hành động..!
✓ Khi muốn trả lời ai đó, bạn gõ @ cộng thêm nick diễn đàn của người đó phía sau @, giống như tag tên trên Facebook.
✓ Yêu cầu khi bình luận, bạn phải gõ chữ rõ ràng, không viết tắt, gõ tiếng Việt đầy đủ dấu câu.
✓ Nên dùng font chữ mặc định của diễn đàn, không tô màu lòe loẹt hay dùng size chữ quá lớn khi bình luận.
✓ Bài viết, comment... không được phép quảng cáo dịch vụ, rao vặt, pr... Loại trừ ở chuyên mục Rao vặt đã cho phép.
✓ Nghiêm cấm các chủ đề dạng: Cứu em với, help me, giật tít, câu view... dưới mọi hình thức.
✓ Tất cả các thành viên tham gia diễn đàn cần đọc kỹ Nội quy chung và nghiêm túc tuân thủ.


Chia sẻ trang này

Đang tải...