1. Hiện tại có một số member mạo danh BQT để giao dịch trên diễn đàn và đã LỪA ĐẢO khá nhiều tại chuyên mục Adwords... Mọi người cảnh giác và đọc bài: Giới thiệu giao dịch đảm bảo bởi @Admin

Sử dụng Python để kiểm tra URL có được index hay không?

Thảo luận trong 'Thảo luận Seo' bắt đầu bởi thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không?, 13/10/16.

Lượt xem: 18,114
  1. thegioiseo

    thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không? Điều Hành Viên

    Gia nhập:
    22/5/11
    Bài viết:
    1,206
    Đã được thích:
    2,687
    (Thegioitỷ lệ cược bet365_trò chơi điện tử bet 365_ở việt nam có thể chơi bet365 không?) - Google Search Console có thể giúp bạn xác định các trang của bạn có được index hay không. Hôm nay trong bài viết này tôi sẽ đưa ra một kịch bản để chứng minh điều đó.

    Có 3 thành phần chính trong tìm kiếm tự nhiên: crawl, index và xếp hạng. Khi một công cụ tìm kiếm đến trang web của bạn, nó thu thập tất cả các liên kết mà nó tìm thấy. Thông tin về những gì nó tìm thấy sẽ được đưa vào chỉ mục của công cụ tìm kiếm - đây là nơi mà các yếu tố khác nhau được sử dụng để xác định các trang cần lấy.

    slide

    Khi SEO, chúng ta có xu hướng tập trung nỗ lực của chúng ta vào các thành phần xếp hạng nhưng nếu một công cụ tìm kiếm không thể crawl và index các trang trên trang web của bạn, bạn sẽ không nhận được bất kỳ lưu lượng truy cập từ Google. Rõ ràng, việc đảm bảo trang web của bạn có được thu thập và index đúng là một phần quan trọng của SEO.

    Nhưng làm thế nào bạn có thể biết nếu trang web của bạn được index đúng cách?

    Nếu bạn có quyền truy cập vào Google Search Console, nó cho bạn biết bao nhiêu trang được chứa trong sitemap XML của bạn và bao nhiêu trong số chúng được index. Thật đáng tiếc là nó sẽ không thể cho bạn biết các trang không được index.
    Su dung python de kiem tra url co duoc index hay khong
    Điều này có thể khiến bạn có rất nhiều phỏng đoán hoặc kiểm tra thủ công. Nó giống như kiểu tìm kim đáy bể. Điều này là không tốt. Hãy giải quyết vấn đề này một cách khéo léo với kỹ thuật nhỏ và một công cụ miễn phí của tôi.

    Xác định một URL duy nhất được index bởi Google

    Để xác định xem một URL riêng đã được index bởi Google, chúng ta có thể sử dụng toán tử tìm kiếm “info:” hay nói dễ hiểu hơn là gõ info:url của bạn vào google như ví dụ sau:
    Mã:
    info:http://searchengineland.com/google-downplays-google-algorithm-ranking-update-week-normal-fluctuations-258923
    Nếu URL được lập chỉ mục, kết quả sẽ hiển thị cho URL đó:

    Su dung python de kiem tra url co duoc index hay khong 2

    Tuy nhiên, nếu URL không được lập chỉ mục, Google sẽ trả về một lỗi nói rằng không có thông tin có sẵn cho URL đó:
    Su dung python de kiem tra url co duoc index hay khong 3
    Sử dụng Python để kiểm tra số lượng lớn các URL

    Khi chúng ta đã biết làm thế nào để kiểm tra xem một URL đã được index hay chưa, bạn có thể tự hỏi bạn có thể làm điều này như thế nào. Ví dụ nếu bạn có 1.000 công nhân cần phải kiểm tra mỗi ngày, nếu bạn thích bạn có thể sử dụng giải pháp Python của tôi:
    Mã:
    # Google says don't use this script: https://twitter.com/methode/status/783733724655517696
    # This script is a violation of Google Terms of Service. Don't use it.
    
    import requests
    import csv
    import os
    import time
    from bs4 import BeautifulSoup
    from urllib.parse import urlencode
    
    seconds = input('Enter number of seconds to wait between URL checks: ')
    output = os.path.join(os.path.dirname(__file__), input('Enter a filename (minus file extension): ')+'.csv')
    urlinput = os.path.join(os.path.dirname(__file__), input('Enter input text file: '))
    urls = open(urlinput, "r")
    
    proxies = {
        'https' : 'https://localhost:8123',
        'https' : 'http://localhost:8123'
        }
    
    user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'
    headers = { 'User-Agent' : user_agent}
    
    f = csv.writer(open(output, "w+", newline="\n", encoding="utf-8"))
    f.writerow(["URL", "Indexed"])
    
    for line in iter(urls):
        query = {'q': 'info:' + line}
        google = "https://www.google.com/search?" + urlencode(query)
        data = requests.get(google, headers=headers, proxies=proxies)
        data.encoding = 'ISO-8859-1'
        soup = BeautifulSoup(str(data.content), "html.parser")
        try:
            check = soup.find(id="rso").find("div").find("div").find("h3").find("a")
            href = check['href']
            f.writerow([line,"True"])
            print(line + " is indexed!")
        except AttributeError:
            f.writerow([line,"False"])
            print(line + " is NOT indexed!")
        print("Waiting " + str(seconds) + " seconds until checking next URL.\n")
        time.sleep(float(seconds))
    urls.close()
    Để sử dụng kịch bản trên, hãy đảm bảo rằng bạn đã cài đặt Python 3. Bạn cũng sẽ cần phải cài đặt thư viện BeautifulSoup. Để làm điều này, mở thiết bị đầu cuối, tạo một tập tin văn bản với một danh sách các URL, liệt kê từng URL trên mỗi dòng riêng biệt.
    Su dung python de kiem tra url co duoc index hay khong 4
    Bây giờ kịch bản của bạn đã sẵn sàng, chúng ta cần phải thiết lập Tor để chạy như proxy miễn phí của chúng tôi. Trên Windows, tải về Tor Expert Bundle. Giải nén thư mục zip vào một thư mục cục bộ và chạy tor.exe. Hãy thu nhỏ cửa sổ.

    Su dung python de kiem tra url co duoc index hay khong 5

    Tiếp theo, chúng ta phải cài đặt Polipo để chạy Tor và HTTP proxy. Tải về Windows binary mới nhất (nó sẽ được đặt tên là "polipo-1.x.x.x-win32.zip") và giải nén vào một thư mục.

    Trong thư mục Polipo của bạn, tạo ra một tập tin văn bản (ví dụ: config.txt) với các nội dung sau đây:
    Mã:
    socksParentProxy = "localhost:9050"
    socksProxyType = socks5
    diskCacheRoot = ""
    disableLocalInterface=true
    Mở command prompt và điều hướng đến thư mục Polipo của bạn.

    Chạy lệnh sau đây:

    Mã:
    polipo.exe -c config.txt
    Su dung python de kiem tra url co duoc index hay khong 6
    Tại thời điểm này, chúng tôi đã sẵn sàng để chạy script Python thực tế của chúng tôi:
    Mã:
    python indexchecker.py
    Su dung python de kiem tra url co duoc index hay khong 7
    Kịch bản sẽ nhắc bạn xác định số giây để chờ khi kiểm tra từng URL.

    Nó cũng sẽ nhắc bạn nhập tên tập tin (không có phần mở rộng tập tin) để xuất kết quả đến một tập tin CSV.

    Cuối cùng, nó sẽ yêu cầu tên tập tin của tập tin văn bản có chứa danh sách các URL để kiểm tra.

    Nhập thông tin này và để chạy script.

    Kết quả cuối cùng sẽ là một file CSV, có thể dễ dàng được mở trong Excel, xác định giá trị TRUE nếu một trang được index hoặc FALSE nếu nó không được index.
    Su dung python de kiem tra url co duoc index hay khong 8
    Trong trường hợp kịch bản không làm việc, Google có thể chặn Tor. Hãy sử dụng dịch vụ proxy của riêng bạn bằng cách thay đổi các dòng sau trong kịch bản:
    Mã:
    proxies = {
    'https' : 'https://localhost:8123',
    'https' : 'http://localhost:8123'
    }
    Kết luận

    Việc biết được các trang được index bởi Google là rất quan trọng để SEO thành công. Bạn không thể nhận được lưu lượng từ Google nếu trang web của bạn đang không nằm trong cơ sở dữ liệu của Google.

    Thật đáng tiếc là việc xác định các URL được index trên một trang web là không dễ dàng. Nhưng với một vài thủ thuật và kịch bản Python trên, chúng ta có thể giải quyết vấn đề này.


    Last edited by a moderator: 13/10/16
    nguyenhuutinh1992 thích bài này.
  2. thienbao

    thienbao Top 9

    Gia nhập:
    24/8/15
    Bài viết:
    444
    Đã được thích:
    14
    sao phứt tạp phần cuối quá. phần info: thì dễ hiểu. mà có thể kiểm tra url có index hay ko = cách thông thường site:url cần kiểm tra cũng dc mà :D
  3. Huu Nhon

    Huu Nhon Top 10

    Gia nhập:
    17/6/15
    Bài viết:
    10
    Đã được thích:
    3
    Web:
    thấy có vẻ khả thi, để làm thử coi sao
  4. Chu Dinh Tuan

    Chu Dinh Tuan Top 9

    Gia nhập:
    4/9/16
    Bài viết:
    57
    Đã được thích:
    5
    Thấy phức tạp quá bác ạ, Đọc mà ko hiểu phải làm thế nào
  5. nguyenhuutinh1992

    nguyenhuutinh1992 Top 7

    Gia nhập:
    26/9/13
    Bài viết:
    1,778
    Đã được thích:
    165
    Web:
    Em làm thì ít khi làm cái này, chủ yếu là sử dụng cách search site:url như vậy nhanh hơn, nhưng hạn chế là không kiểm tra được nhiều url một lúc.
  6. thienlyma90

    thienlyma90 Top 7

    Gia nhập:
    7/6/13
    Bài viết:
    1,329
    Đã được thích:
    86
    Nơi ở:
    HN
    Web:
    Nếu mà check ít thì dùng cái này mất nhiều thời gian quá luôn! :) Có lẽ dùng cho những trang mới. :)
  7. vu hian

    vu hian Top 9

    Gia nhập:
    11/10/16
    Bài viết:
    55
    Đã được thích:
    4
    Nơi ở:
    Hà Nội
    Web:
    Trời ạ, đọc mà hoang mang quá, giờ nhiều thứ thế này dân SEO mới như mình biết phải làm sao?
  8. Sử dụng python sẽ giúp index nhanh hơn nhưng mất khá nhiều thời gian và công sức bởi vì nó khá la phức tạp
  9. dunghp9999

    dunghp9999 Top 10

    Gia nhập:
    24/9/15
    Bài viết:
    23
    Đã được thích:
    2
    Nơi ở:
    Hải Phòng
    Web:
    nhìn có vẻ cũng quanh co ra phết :D tối về có time sẽ lần mò làm thử xem sao
  10. ThanhNhaIT

    ThanhNhaIT Top 9

    Gia nhập:
    2/7/14
    Bài viết:
    140
    Đã được thích:
    4
    Oh chơi cái này chắc vui đó, để tôi làm thử xem nào, thanks ad nhé ứ hự
  11. supportviettel

    supportviettel Top 9

    Gia nhập:
    15/1/16
    Bài viết:
    229
    Đã được thích:
    9
    Nơi ở:
    hà nội
    Web:
    hay nhưng mà nhìn hơi rắc rối các bạn à
  12. haopro

    haopro Top 8

    Gia nhập:
    2/8/13
    Bài viết:
    370
    Đã được thích:
    26
    Web:
    ad ơi, cho tớ hỏi python này chạy trên nên java đúng ko
  13. cali9x

    cali9x Top 9

    Gia nhập:
    11/3/16
    Bài viết:
    182
    Đã được thích:
    14
    Web:
    Phức tạp quá, em cứ tưởng muốn kiểm tra index chưa thì cứ copy link paste nên google và gõ thấy hiển thị thì là index rồi
  14. Tiến Nava

    Tiến Nava Top 9

    Gia nhập:
    5/10/12
    Bài viết:
    69
    Đã được thích:
    12
    Nơi ở:
    #saigon
    Web:
    Bài toán đang đưa ra là nhiều link em à, giả sử có 1000 link thì em kiểm tra như thế nào :)
  15. congiola1

    congiola1 Seo Newbie

    Gia nhập:
    7/1/15
    Bài viết:
    6
    Đã được thích:
    0
    Web:
    cái này mà ít thì kiểm tra lại phức tạp, nhưng nhiều thì lại quá ok
  16. azorakt

    azorakt Top 9

    Gia nhập:
    18/12/15
    Bài viết:
    107
    Đã được thích:
    6
    Nơi ở:
    HCM
    Web:
    Cảm ơn mọi người đã chia sẽ, nhưng cách trên hơi phức tạp, không biết có cách nào để lập chỉ mục nhanh và đơn giản nhất không vây.
  17. nhóc_khờ

    nhóc_khờ Seo Newbie

    Gia nhập:
    11/10/16
    Bài viết:
    20
    Đã được thích:
    1
    cảm ơn chủ thớt, mà sao nhìn rắc rối quá :(
  18. tuanpmanager

    tuanpmanager Top 8

    Gia nhập:
    24/1/16
    Bài viết:
    277
    Đã được thích:
    32
    Web:
    phức tạp quá, chắc mình lưu lại để ngâm cứu thêm
  19. supportviettel

    supportviettel Top 9

    Gia nhập:
    15/1/16
    Bài viết:
    229
    Đã được thích:
    9
    Nơi ở:
    hà nội
    Web:
    cảm ơn bạn nhé , để thử nghiệm xem thế nào
  20. youviet001

    youviet001 Top 10

    Gia nhập:
    13/4/16
    Bài viết:
    10
    Đã được thích:
    1
    công nhận loạn thật, đã gà code sẵn mà gặp mấy cái này chắc die luôn. Thôi, cứ check bằng cách gõ trực tiếp URL vào google Search cho lành

Nội quy khi thảo luận:

Dù bạn có cố tình spam bằng cách nào khi BQT diễn đàn phát hiện sẽ lập tức banned nick và xoá toàn bộ bài viết của bạn. Ngoài ra khi phát hiện ra Spam hãy gửi thông báo cho BQT diễn đàn. Hãy suy nghĩ trước khi hành động..!
✓ Khi muốn trả lời ai đó, bạn gõ @ cộng thêm nick diễn đàn của người đó phía sau @, giống như tag tên trên Facebook.
✓ Yêu cầu khi bình luận, bạn phải gõ chữ rõ ràng, không viết tắt, gõ tiếng Việt đầy đủ dấu câu.
✓ Nên dùng font chữ mặc định của diễn đàn, không tô màu lòe loẹt hay dùng size chữ quá lớn khi bình luận.
✓ Bài viết, comment... không được phép quảng cáo dịch vụ, rao vặt, pr... Loại trừ ở chuyên mục Rao vặt đã cho phép.
✓ Nghiêm cấm các chủ đề dạng: Cứu em với, help me, giật tít, câu view... dưới mọi hình thức.
✓ Tất cả các thành viên tham gia diễn đàn cần đọc kỹ Nội quy chung và nghiêm túc tuân thủ.


Chia sẻ trang này

Đang tải...