webbotparseR
1.0.0
webbotparseR permite analizar los resultados del motor de búsqueda que se eliminaron con la extensión del navegador WebBot. También está disponible una biblioteca de Python similar.
Puede instalar la versión de desarrollo de webbotparseR así:
remotes :: install_github( " schochastics/webbotparseR " )
El paquete contiene un html de ejemplo de una búsqueda en Google sobre el cambio climático.
library( webbotparseR )
ex_file <- system.file( " www.google.com_climatechange_text_2023-03-16_08_16_11.html " , package = " webbotparseR " )
Estos resultados de búsqueda se pueden analizar mediante la función parse_search_results()
. El engine
de parámetros se utiliza para especificar el motor de búsqueda y el tipo de búsqueda.
output <- parse_search_results( path = ex_file , engine = " google text " )
output
# > # A tibble: 10 × 10
# > title link text image page position search_engine type query
# > <chr> <chr> <chr> <chr> <chr> <int> <chr> <chr> <chr>
# > 1 What Is Climate C… http… Clim… data… 1 1 www.google.c… text clim…
# > 2 Home – Climate Ch… http… Vita… data… 1 2 www.google.c… text clim…
# > 3 Vital Signs of th… http… “Cli… data… 1 3 www.google.c… text clim…
# > 4 Climate change - … http… In c… data… 1 4 www.google.c… text clim…
# > 5 IPCC — Intergover… http… The … data… 1 5 www.google.c… text clim…
# > 6 Climate Change | … http… Comp… data… 1 6 www.google.c… text clim…
# > 7 Climate change: e… http… Clim… <NA> 1 7 www.google.c… text clim…
# > 8 UNFCCC http… What… data… 1 8 www.google.c… text clim…
# > 9 Climate Change - … http… Clim… data… 1 9 www.google.c… text clim…
# > 10 Causes of climate… http… This… data… 1 10 www.google.c… text clim…
# > # ℹ 1 more variable: date <dttm>
Tenga en cuenta que las imágenes siempre se devuelven codificadas en base64.
output $ image [ 1 ]
# > [1] "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAABAAAAAQCAIAAACQkWg2AAAABnRSTlMAAAAAAABupgeRAAAAMklEQVR4AWMAgYYG4hEdNJAHGoCIABvBJayhgcYaIAwaakCwydUA52MKYeeSCgZh4gMAXrJ9ASggqqAAAAAASUVORK5CYII="
La función base64_to_img()
se puede utilizar para decodificar la imagen y guardarla en un formato apropiado.