1. Hiện tại có một số member mạo danh BQT để giao dịch trên diễn đàn và đã LỪA ĐẢO khá nhiều tại chuyên mục Adwords... Mọi người cảnh giác và đọc bài: Giới thiệu giao dịch đảm bảo bởi @Admin

Quản lý file Robots.txt một cách hiệu quả

Thảo luận trong 'Thủ thuật Seo - Seo tips' bắt đầu bởi thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không?, 23/7/14.

Lượt xem: 2,699
  1. thegioiseo

    thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không? Điều Hành Viên

    Gia nhập:
    22/5/11
    Bài viết:
    1,206
    Đã được thích:
    2,687
    (Thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không?) - Việc quản lý file robots.txt sao cho hiệu quả vẫn luôn là tâm điểm trong suốt thời gian qua và cho đến nửa cuối năm nay, nó vẫn chưa có dấu hiệu lắng xuống. Khoảng thời gian ngắn trước đó, Google đã cho nâng cấp mảng Blocked URLs với công cụ kiểm tra robots.txt thế hệ mới, giúp thu thập và sửa chữa các lỗi và những cảnh báo trong file robots.txt của bạn. Đối với một chuyên gia SEO dày dặn kinh nghiệm, họ coi file robots.txt là một thành tố tuy giản đơn, nhưng lại đóng vai trò nền tảng trong SEO. Với những ai ít hiểu biết về khía cạnh này thì những lỗi căn bản trong file robots.txt có thể gây ra việc ngăn chặn công cụ tìm kiếm thu thập thông tin bên trong trang web của bạn.

    slide
    Robots.txt và tầm quan trọng của nó

    Bạn có thể hiểu file Robots.txt này là một nguồn lực giúp cho các công cụ tìm kiếm có thể hiểu được các trang hay các thành phần trong một website, cũng như phân biệt được đâu là loại trang mà chúng không cần tốn thời gian để quét thông tin.

    Nếu quản lý sai cách, nó có thể gây nguy hiểm cho thứ hạng tìm kiếm, nhưng ngược lại, một khi file robots.txt này được kiểm soát chặt chẽ thì nó có thể đem lại lợi ích, giúp bạn thông báo cho Google biết những nội dung tìm kiếm không quan trọng mà bạn có trong trang web, hay các nội dung trùng lặp và nội dung bạn không muốn công cụ tìm kiếm thu thập.

    Nhưng hãy cẩn trọng…

    Trong khi đây là một công cụ hữu ích cho các webmaster, thì bạn cũng cần phải hiểu làm thể nào để sử dụng và kiểm tra file robots.txt. Dưới đây là 3 dạng chỉ thị của file robots.txt:

    1. Cấp độ trang (page level)
    Disallow: /examplepage.html

    2. Cấp độ thư mục (Folder Level)
    Disallow: /example-folder/

    3. Chỉ thị ký tự đại diện (Wildcard Directive)
    Bất cứ trang con nào của một thư mục (Disallow: /example- folder/*)

    Dạng file (Disallow: /*.pdf)

    Những lỗi phổ biến

    Dưới đây là những lỗi phổ biến của robots.txt mà bạn nên tránh:

    Disallow: /
    Disallow: / điều này có nghĩa là Google bots sẽ không truy cập vào phần này khi vào website của chúng ta.
    Disallow: /images/

    Disallow: /videos/
    Ngăn chặn các thư mục trong một website có chứa nội dung có thể index như hình ảnh, videos. Điều này có thể giảm ấn tượng của Google đối với trang web của bạn trên Google Search Queries.

    Disallow: /*.css

    Disallow: /*.js

    Ngăn chặn các công cụ tìm kiếm truy cập vào nơi chứa dữ liệu file CSS và Javascript của bạn.
    Disallow: /*.pdf

    Disallow: /*.doc

    Ngăn chặn định dạng trang bởi nó không phải là trang HTML. Điều này có thể gây trở ngại cho thứ hạng của bạn vì chúng là yếu tố giúp bạn tăng vị trí trên bảng xếp hạng và là cách kiếm thêm lượng truy cập từ công cụ tìm kiếm.

    Quản lý file Robots.txt

    Google đã nỗ lực thành công trong việc giúp bạn quản lý tốt file robots.txt. Nhưng hãy để ý đến một công cụ tìm kiếm khác, đó là Bing.

    Thông tin thu thập của Bing’s Webmaster Tools cho thấy robots.txt hiển thị cả nội dung. Thật là tuyệt vời khi bạn có thể nhìn thấy những trang bị khuất tầm nhìn công cụ tìm kiếm và cả những liên kết tin cậy chưa được công cụ tìm kiếm công nhận. Hãy nhìn ví dụ bên dưới, nó chỉ ra trang đầu tiên bị loại bỏ có 295 inbound links trỏ vào.

    quan ly file robots

    Bên cạnh Bing’s Webmaster Tools, bạn cũng có thể xem xét toàn bộ thông tin với SEMrush Beta Site Audit, nó chỉ ra những URL đã bị loại trừ qua robots.txt.

    semrush

    Thêm vào đó, nếu bạn muốn quan sát những dữ liệu tương tự, thì cũng có những công cụ khác mà bạn có thể sử dụng. Trong khi SEMrush giúp bạn nhìn vào các yếu tố SEO trong trang và độ mạnh cạnh tranh, thì Steliner lại cho phép bạn tổng hợp thông tin về robots.txt exclusion trong khi nó đào sâu vào các vấn đề trùng lặp trong nội dung trên trang web. Hơn nữa, ngoài việc chỉ ra số lượng liên kết inbound links mà mỗi trang có được, nó còn cung cấp “page power” để đo khối lượng và trang được liên kết với các trang khác.

    siteliner

    Cuối cùng, Google Webmaster Tools cũng cung cấp các công cụ kiểm tra Robots.txt Tester. Các công cụ khác sẽ giúp bạn hiểu những gì bạn đang có, nhưng Google sẽ giúp bạn thấy cả những lỗi có trong file robots.txt. Google cũng cung cấp những chỉ thị trực tiếp đến nơi đang có lỗi để rút ngắn thời gian của bạn.

    robots tester

    Cuối cùng

    Robots.txt nếu được sử dụng đúng cách có thể hỗ trợ bạn một cách đắc lực trong việc nâng cao thứ hạng trên công cụ tìm kiếm với các trang web thu thập dữ liệu. Điều này không có nghĩa là nó sẽ ngay lập tức loại bỏ nội dung từ các công cụ tìm kiếm như các thẻ meta noindex, chính vì thế mà bạn cần phải thay đổi những file robots.txt đồng thời quản lý nó chặt chẽ, vì cứ mỗi một trang không được index thì thứ hạng của bạn cũng sẽ bị giảm đi.

    Hy vọng bài viết này đã giúp bạn định hướng được những chiến lược trong việc quản lý file robots.txt. Hơn hết, tôi cũng hy vọng cho đến thời điểm này thì bạn cũng có thể thấy việc điều chỉnh những lỗi robots.txt ra khỏi nội dung được Google bots thu thập nó dễ dàng hơn như thế nào.


    vuontrentuong, phamdat and Admin like this.
  2. chopper

    chopper Top 9

    Gia nhập:
    27/5/14
    Bài viết:
    39
    Đã được thích:
    1
    Web:
    bài viết chi tiết nhưng hơi khó hiểu
  3. tienanh

    tienanh Cựu Administrator

    Gia nhập:
    1/7/13
    Bài viết:
    888
    Đã được thích:
    411
    Web:
    tks a toản ,e có đọc tài liệu tiếng anh mà khó hiểu quá :)
  4. haiphamqn90

    haiphamqn90 Top 9

    Gia nhập:
    18/9/13
    Bài viết:
    241
    Đã được thích:
    14
    Đợt vừa rồi, nhờ có cái robots.txt mà mình đã hạn chế được, gg mastertool báo gần 3000 discription giống nhau, may mà phát hiện kịp
    Thằng google nó indexx luôn cả những truy vấn tìm kiếm trên webstie của khách hàng mới sợ chứ
  5. trungkj3n

    trungkj3n Top 9

    Gia nhập:
    8/9/12
    Bài viết:
    90
    Đã được thích:
    10
    Web:
    mình thường hạn chế toàn bộ boot lấy thông tin ở thư mục theme liệu có ảnh hưởng gì không nhỉ?
  6. huannguyetvn

    huannguyetvn Top 9

    Gia nhập:
    5/11/13
    Bài viết:
    315
    Đã được thích:
    12
    Web:
    Nguy hiểm quá ,em thì từ trước tới giờ không quan tâm nhiều đến cái robots.txt đó,có lẽ cũng phải xem xét lại thôi
  7. toilamdep

    toilamdep Top 9

    Gia nhập:
    4/5/14
    Bài viết:
    44
    Đã được thích:
    1
    Minh thay 1 link cua minh google no khong nhan chac la do cai nay roi
  8. dongphuc2015

    dongphuc2015 Top 7

    Gia nhập:
    21/7/14
    Bài viết:
    71
    Đã được thích:
    103
    Cảm ơn Ad ạ. Trước giờ chỉ giám chăn foder admin bởi chưa hiểu gì.
  9. cuongapple

    cuongapple Top 9

    Gia nhập:
    4/7/14
    Bài viết:
    120
    Đã được thích:
    5
    Web:
    Thế này thì mỗi ngày chúng ta lại càng phải tối ưu nhất chi site rồi. Google giờ yêu cầu cao quá! Từ cái nhỏ nhặt nhất
  10. phamdat

    phamdat Top 9

    Gia nhập:
    14/6/14
    Bài viết:
    147
    Đã được thích:
    9
    Nơi ở:
    hà nội
    Web:
    Em cũng chưa hiểu về vấn đề này lắm nhưng thời gian gần đây khi seach các key của em thì đoan dicaption của em không hiện nữa mà chỉ hiện thông báo bên dưới. key thì chắc chắn tụt rồi. các bác cho em ý kiến xử lý nó như thế nào ạ.


    A description for this result is not available because of this site's robots.txt – learn more.
    trong robots.txt: \
    User-agent: *
    Disallow: /administrator/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
  11. muoicap91

    muoicap91 Top 9

    Gia nhập:
    24/3/14
    Bài viết:
    104
    Đã được thích:
    5
    Web:
    Giống mình, thực sự hơi khó hiểu, hơi lý thuyết thì phải :(
  12. kevin51

    kevin51 Top 9

    Gia nhập:
    18/10/13
    Bài viết:
    203
    Đã được thích:
    18
    chỉ là site của bạn chưa có file robots thôi bạn có thể tạo file robots và vất lên host là xong mà
    toaitong thích bài này.
  13. TÙy theo cách làm of từng người bác ạ. Có người để google quét site map đầu tiên rồi mới tới cái khác
  14. lehuyenat

    lehuyenat Top 9

    Gia nhập:
    1/5/14
    Bài viết:
    465
    Đã được thích:
    2
    hình như là có.thấy nhiều ng làm thế.chủ yếu cho blogspot thì phải
  15. hostingviet

    hostingviet Top 9

    Gia nhập:
    31/10/13
    Bài viết:
    29
    Đã được thích:
    0
    híc, trước em bị lỗi này, không chặn admin. thế là khi gõ site:domain... ra búa lua xua kết quả luôn :(
  16. nguyenngochai

    nguyenngochai Seo Newbie

    Gia nhập:
    25/7/14
    Bài viết:
    27
    Đã được thích:
    0
    tks a toản vì đã công hiến nhiều nhé
  17. thuantalk

    thuantalk Top 9

    Gia nhập:
    9/7/14
    Bài viết:
    134
    Đã được thích:
    8
    Nơi ở:
    https://top10dichvu.com/
    Web:
    Từ 12 tháng này có rất nhiều web bị lỗi robots . txt do bị đứt cáp. Nhưng không biết nguyên nhân do đâu và có ảnh hưởng gì đến web không? Mình thấy đa số nhiều người hỏi mà mình cũng không rõ nguyên nhân do cái gì? Có bạn nào như vậy không? Thảo luận đi!
  18. Trangcherry

    Trangcherry Seo Newbie

    Gia nhập:
    11/6/15
    Bài viết:
    19
    Đã được thích:
    0
    bạn nào có thể nói cho dễ hiểu hơn được không mình đọc xong mà không hiểu gì luôn :D
  19. vuontrentuong

    vuontrentuong Top 8

    Gia nhập:
    18/5/15
    Bài viết:
    364
    Đã được thích:
    40
    Nơi ở:
    hà nội
    Web:
    bác cho em hỏi chút có nên disalaw hình ảnh không vậy
  20. itseasy

    itseasy Seo Newbie

    Gia nhập:
    30/9/15
    Bài viết:
    19
    Đã được thích:
    0
    Nơi ở:
    Hanoi
    Web:
    em dùng wordpress nên thường chỉ disallow wp-admin, wp-include thôi :D, phần hình ảnh thì cũng SEO bên page tìm kiếm hình ảnh được sao lại disallow nhỉ

Nội quy khi thảo luận:

Dù bạn có cố tình spam bằng cách nào khi BQT diễn đàn phát hiện sẽ lập tức banned nick và xoá toàn bộ bài viết của bạn. Ngoài ra khi phát hiện ra Spam hãy gửi thông báo cho BQT diễn đàn. Hãy suy nghĩ trước khi hành động..!
✓ Khi muốn trả lời ai đó, bạn gõ @ cộng thêm nick diễn đàn của người đó phía sau @, giống như tag tên trên Facebook.
✓ Yêu cầu khi bình luận, bạn phải gõ chữ rõ ràng, không viết tắt, gõ tiếng Việt đầy đủ dấu câu.
✓ Nên dùng font chữ mặc định của diễn đàn, không tô màu lòe loẹt hay dùng size chữ quá lớn khi bình luận.
✓ Bài viết, comment... không được phép quảng cáo dịch vụ, rao vặt, pr... Loại trừ ở chuyên mục Rao vặt đã cho phép.
✓ Nghiêm cấm các chủ đề dạng: Cứu em với, help me, giật tít, câu view... dưới mọi hình thức.
✓ Tất cả các thành viên tham gia diễn đàn cần đọc kỹ Nội quy chung và nghiêm túc tuân thủ.


Chia sẻ trang này

Đang tải...