Python'da düzenli

İçindekiler
NS Ekran Kazıma veya ekran kazıma, söz konusu sayfayı indirerek ve ardından bir programla işleyerek bir web sayfasından bilgi çıkarmamızı sağlar; Bu, özellikle herhangi bir içeriği olmayan bir web sitesinden güncellenmiş bilgilere ihtiyacımız olduğunda çok kullanışlıdır. API mevcut veya bazı İnternet servisi.
Bir yürütmek için Ekran Kazıma, sadece içeriği indirmemiz ve bizi ilgilendiren şeyleri çıkarabilmemiz için onu manipüle edebilmemiz gerekiyor, bunun için düzenli ifadelerin kullanımı gibi çeşitli teknikler kullanabilir veya belki de aşağıdaki gibi diğer kütüphanelerde kendimize yardımcı olabiliriz. Düzenli.
Tidy nedir?
Bir okuyabilmek için HTML Yapısına güvenmeliyiz, çünkü tam olarak hangi içeriğe sahip olduğunu bilmediğimiz için, en azından yapıları araştırırsak biliyoruz. HTML alabileceğimiz bir şey, ancak, her zaman değil HTML ya bir ihmal hatası nedeniyle ya da programcı bazı kusurlar olsa bile bazı tarayıcıların HTML'yi yorumlama eğiliminde olduğunu bildiği için iyi biçimlendirilmiştir.
Bu noktada devreye giriyor Düzenli, hatalı biçimlendirilmiş HTML'yi onarmamıza izin veren bir araçtan başka bir şey değildir, son derece yapılandırılabilir ve yapabileceği düzeltmeleri yorumlama şeklini özelleştirmemize izin verir, bu şekilde ne tür bir belge olduğunu kesin olarak bileceğiz. sonu ile sonuçlanacaktır.
Önce bir kodun resmini görelim HTML Birçok hata ile bu kod bazı tarayıcılar tarafından yorumlanabilir, ancak oluşumunda doğru bir kod değildir:

Gördüğümüz gibi, her satırda pratik olarak bir hata var, en yaygın olanı etiketlerin kapanmamasıdır, ardından yanlış yerde kapanan etiketler görüyoruz vb.
Sonra kullanırız Düzenli ve kodun zaten düzeltildiğini görelim, orada bu kütüphanenin ne kadar önemli olduğunu ve bize verebileceği tüm yardımı anlayacağız:

Resimde nasıl düzeltildiğini görüyoruz. Düzenli, Tidy'nin büyük bir kütüphane olmasına rağmen, muhtemelen tüm hataları çözemediğini not etmeliyiz. HTMLAncak konu iyi biçimlendirilmiş HTML'mizi oluşturmaya geldiğinde bize çok yardımcı oluyor.
Düzenli Ol
http://tidy.sf.net adresindeki resmi sayfası aracılığıyla Tidy'i elde etmenin birkaç yolu vardır. kütüphaneyi elde edebiliriz, ancak bu kaynakta onu entegre etmenin bir yolu yoktur. piton bu yüzden alternatif bir kaynağa başvurmalıyız, bunun için iki seçeneğimiz var: uTidy http://utidylib.berlios.de adresinde mevcuttur ve mxTidy http://egenix.com/files/python/mxTidy.html adresinde mevcuttur, uTidy ikisi arasında en günceli gibi görünmektedir ancak mxTidy'nin kurulumu biraz daha kolaydır, hangisinin hangisi olduğunu görmek herkese kalmış kullanmak.
Nasıl kullanılacağına dair bir örnek görelim Düzenli Kurulumu yaptıktan sonra aşağıdaki kodda yapacağımız şey hatalı bir HTML açıp Tidy kullanarak okumak, ardından ekranda bilgileri göstereceğiz.
 alt süreçten içe aktar Popen, PIPE text = open ('dağınık.html') read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (metin) tidy. stdin.close() yazdır tidy.stdout.read() 

Gördüğümüz gibi, kullanımı oldukça basit DüzenliKütüphanenin davranışını iyi bilerek ona yeterince güvenirsek, çok ilginç şeyler başarabiliriz.Bu Eğitimi beğendiniz ve yardım ettiniz mi?Yazara olumlu puan vermek için bu düğmeye basarak yazarı ödüllendirebilirsiniz.

Arkadaşlarınızla sayfasını paylaşan sitenin gelişimine yardımcı olacak

wave wave wave wave wave