Semalt သည် ၀ က်ဘ်ဆိုက်များမှသတင်းအချက်အလက်များကိုအလွယ်တကူရယူရန်လွယ်ကူသောနည်းလမ်းဖြစ်သည်

ဝက်ဘ်ခြစ် ခြင်းသည်ဝက်ဘ်ဆိုက်များမှအကြောင်းအရာများကိုရယူခြင်း၏လူကြိုက်များသောနည်းလမ်းဖြစ်သည်။ အထူးပရိုဂရမ်ပြုသည့် algorithm သည်ဆိုက်၏ပင်မစာမျက်နှာသို့ရောက်ရှိပြီးသင်သတ်မှတ်ထားသော div များ၏အတွင်းပိုင်းများကိုတပ်ဆင်ခြင်း၊ အတွင်းပိုင်းချိတ်ဆက်မှုအားလုံးကိုလိုက်နာသည်။ ရလဒ်အနေနှင့် - လိုအပ်သောသတင်းအချက်အလက်အားလုံးကိုတင်းကြပ်သောအကျီင်္များဖြင့်ပါ ၀ င်သောအဆင်သင့်သော CSV ဖိုင်။ ရလဒ် CSV သည်ထူးခြားသောအကြောင်းအရာများကိုဖန်တီးရန်အနာဂတ်အတွက်အသုံးပြုနိုင်သည်။ ယေဘုယျအားဖြင့်ဇယားတစ်ခုအနေနှင့်ထိုကဲ့သို့သောအချက်အလက်များသည်အလွန်တန်ဖိုးရှိသည်။ ဆောက်လုပ်ရေးဆိုင်တစ်ဆိုင်၏ကုန်ပစ္စည်းစာရင်းတစ်ခုလုံးကိုဇယားတစ်ခုတွင်ဖော်ပြထားသည်ဆိုပါစို့။ ထို့အပြင်ထုတ်ကုန်တစ်ခုစီအတွက်၊ အမျိုးအစားတစ်ခုစီနှင့်ကုန်ပစ္စည်းအမှတ်တံဆိပ်အားလုံးအတွက်လယ်ကွင်းနှင့်ဝိသေသလက္ခဏာများအားလုံးဖြည့်စွက်ထားသည်။ အွန်လိုင်းစတိုးတစ်ခုတွင်အလုပ်လုပ်နေသောမည်သည့်ကော်ပီရေးသူမဆိုထိုကဲ့သို့သော CSV ဖိုင်ရှိလိုသည်။

၀ ဘ်ဆိုဒ်များမှသို့မဟုတ်ဝက်ဘ်ဖျက်ခြင်းမှအချက်အလက်များကိုထုတ်ယူရန်ကိရိယာများစွာရှိသည်။ ပရိုဂရမ်ဘာသာစကားတစ်ခုခုကိုသင်မသိကျွမ်းပါကမစိုးရိမ်ပါနှင့်။ ဤဆောင်းပါး၌ Scrapinghub ကိုအသုံးပြုရန်အလွယ်ကူဆုံးနည်းလမ်းများကိုငါပြမည်။

ပထမ ဦး စွာ scrapinghub.com သို့သွားပြီးမှတ်ပုံတင်ပါ။

သင်၏အဖွဲ့အစည်းနှင့် ပတ်သက်၍ နောက်တစ်ဆင့်ကိုကျော်သွားနိုင်သည်။

ထိုအခါသင်သည်သင်၏ပရိုဖိုင်းကိုရ။ သင်စီမံကိန်းတစ်ခုဖန်တီးရန်လိုအပ်သည်။

ဤနေရာတွင်သင် algorithm တစ်ခုကိုရွေးချယ်ရမည် (("Portia" algorithm ကိုကျွန်ုပ်တို့သုံးလိမ့်မည်) နှင့်စီမံကိန်းကိုအမည်ပေးရမည်။ ဒါကိုပုံမှန်မဟုတ်တဲ့နည်းနဲ့ခေါ်ကြရအောင်။ ဥပမာ "111" ။

ယခုသင်အချက်အလက်များကိုသင်ထုတ်ယူလိုသောဝက်ဘ်ဆိုက်ဒ်၏ URL ကိုရိုက်ထည့်ရန်လိုအပ်သည့် algorithm ၏လုပ်ငန်းခွင်နေရာတွင်ရောက်ရှိသွားပြီဖြစ်သည်။ ထို့နောက် "New Spider" ကိုနှိပ်ပါ။

ဥပမာတစ်ခုအနေဖြင့်သွားမည့်စာမျက်နှာသို့သွားပါမည်။ လိပ်စာခေါင်းစီးတွင်နောက်ဆုံးပေါ်ဖြစ်သည်။ "ဒီစာမျက်နှာကို Annotate" ကိုနှိပ်ပါ။

သင့် mouse ၏ cursor ကိုညာဘက်သို့ရွှေ့။ menu ပေါ်လာလိမ့်မည်။ ဒီမှာ "Extracted item" tab ကိုကျွန်တော်တို့စိတ်ဝင်စားတယ်။ အဲဒီမှာသင် "Edit Items" ကိုနှိပ်ပါ။

သို့သျောလညျးကြှနျုပျတို့၏လယ်ကွင်း၏ဗလာစာရင်းပြသနေသည်။ "+ Field" ကိုနှိပ်ပါ။

ဤနေရာတွင်အားလုံးရိုးရှင်းပါသည်။ သင်သည်နယ်ပယ်စာရင်းတစ်ခုကိုဖန်တီးရန်လိုအပ်သည်။ ပစ္စည်းတစ်ခုစီအတွက်၊ သင်အမည်တစ်ခု (ဤကိစ္စတွင်ခေါင်းစဉ်နှင့်အကြောင်းအရာ) ကိုထည့်သွင်းရန်လိုအပ်သည်၊ ဤအကွက် (လိုအပ်သည်) လိုအပ်သည်ရှိမရှိနှင့်၎င်းသည်ကွဲပြားနိုင်သည် (“ ကွဲပြား”) ရှိသည်။ အကယ်၍ သင်သည် item တစ်ခု "လိုအပ်သည်" ဟုသတ်မှတ်ပါက algorithm သည်ဤကွက်လပ်ကိုဖြည့ ်၍ မရနိုင်သောစာမျက်နှာများကိုသာကျော်သွားလိမ့်မည်။ အကယ်၍ အလံမပြထားလျှင်၊

ယခုငါတို့လိုအပ်သောလယ်ကိုကလစ်နှိပ်ပါနှင့်သူကဘာလဲဆိုတာညွှန်ပြ:

ပြီးပြီလား ၀ က်ဘ်ဆိုဒ်၏ထိပ်တွင် "နမူနာနမူနာသိမ်း" ကိုနှိပ်ပါ။ ထို့နောက်အလုပ်နေရာသို့ပြန်သွားနိုင်သည်။ အခု algorithm ကတစ်ခုခုရအောင်ဘယ်လိုလုပ်ရမလဲဆိုတာကိုသိပြီ၊ အဲဒါကိုလုပ်ဖို့လိုပြီ။ ဤသို့ပြုလုပ်ရန် "Publish Changes" ကိုနှိပ်ပါ။

အလုပ်ဘုတ်သို့ သွား၍“ Spider Run” ကိုနှိပ်ပါ။ ၀ ဘ်ဆိုဒ်ကို ဦး စား ပေး၍ "Run" ကိုနှိပ်ပါ။

ကောင်းပြီ, ခြစ်လုပ်ငန်းစဉ်ယခုဖြစ်ပါတယ်။ သင်၏အမြန်နှုန်းကိုပို့သူတောင်းဆိုမှုအရေအတွက်ပေါ်တွင်သင်၏ cursor ကိုညွှန်ပြခြင်းဖြင့်ပြသသည်။

CSV တွင်အဆင်သင့်လုပ်သောအရှိန်သည်အခြားနံပါတ်ကိုညွှန်ပြခြင်းဖြင့်ဖြစ်သည်။

ပြီးသားလုပ်ထားပြီးပစ္စည်းများစာရင်းကိုကြည့်ဖို့ဒီနံပါတ်ကိုသာနှိပ်ပါ။ သငျသညျအလားတူတစ်ခုခုမြင်လိမ့်မည်:

ပြီးသွားတဲ့အခါဒီခလုတ်ကိုနှိပ်ခြင်းအားဖြင့်ရလဒ်ကိုကယ်တင်နိုင်သည်။

ဒါပဲ! ပရိုဂရမ်တွင်အတွေ့အကြုံမရှိဘဲဝက်ဘ်ဆိုက်များမှအချက်အလက်များကိုသင်ယခုရယူနိုင်သည်။