Discussion:
Cambio en la web del DRAE
(demasiado antiguo para responder)
gamo
2009-12-07 12:41:24 UTC
Permalink
Antes se podía acceder modo texto y en línea de comandos
al diccionario. Ahora han cambiado el submit por una flechita
gráfica y eso hace inviable el método antiguo. ¿Alguien podría
actualizar el script?

#!/usr/local/bin/perl

use warnings;

# Programa para acceder al diccionario de la RAE
# Distribuido bajo los términos de la licencia GNU GPL

if (@ARGV){
if (-e $ARGV[0] && !-d $ARGV[0]){
open IN, "<".$ARGV[0] or die "Cannot open: $!";
chomp ($w = <IN>);
close IN;
}else{
$w = $ARGV[0];
}
}else{
chomp($w = <STDIN>);
}

if (defined $w && $w ne ""){
$a=`lynx -dump -nolist http://buscon.rae.es/draeI/SrvltGUIBusUsual?TIPO_HTML=2'\&'LEMA='$w'`;
print $a;
}

__END__

Gracias y saludos
--
http://www.telecable.es/personales/gamo/
Honesta turpitudo est pro causa bona --Publilius Syrus
"Was it a car or a cat I saw?"
perl -E 'say 111_111_111**2;'
Gonzalo Pérez de Olaguer Córdoba
2009-12-07 13:01:17 UTC
Permalink
Post by gamo
Antes se podía acceder modo texto y en línea de comandos
al diccionario. Ahora han cambiado el submit por una flechita
gráfica y eso hace inviable el método antiguo. ¿Alguien podría
actualizar el script?
#!/usr/local/bin/perl
use warnings;
# Programa para acceder al diccionario de la RAE
# Distribuido bajo los términos de la licencia GNU GPL
if (-e $ARGV[0] && !-d $ARGV[0]){
open IN, "<".$ARGV[0] or die "Cannot open: $!";
chomp ($w = <IN>);
close IN;
}else{
$w = $ARGV[0];
}
}else{
chomp($w = <STDIN>);
}
if (defined $w && $w ne ""){
$a=`lynx -dump -nolist http://buscon.rae.es/draeI/SrvltGUIBusUsual?TIPO_HTML=2'\&'LEMA='$w'`;
print $a;
}
__END__
Gracias y saludos
Parece que así debería funcionar:

`lynx -dump -nolist http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3'\&'LEMA='$w'`
--
Gonzalo Pérez de Olaguer Córdoba <***@iies.es> --- www.gpoc.es
PGP key 2861C704 --- F206 5671 6789 425D 111C 1302 214F 1934 2861 C704
g***@telecable.es
2009-12-07 16:00:13 UTC
Permalink
Parece que as=C3=AD deber=C3=ADa funcionar:

`lynx -dump -nolist http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3D3'\=
&'LEMA=3D'$w'`
----------------------------

Nope, sale lo mismo de antes. Una pantalla con dos entradas de texto y
la llamada a darle a la flechita.

Gracias por el esfuerzo.
Gonzalo Pérez de Olaguer Córdoba
2009-12-08 03:33:18 UTC
Permalink
Post by g***@telecable.es
`lynx -dump -nolist http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3D3'\=
&'LEMA=3D'$w'`
----------------------------
Nope, sale lo mismo de antes. Una pantalla con dos entradas de texto y
la llamada a darle a la flechita.
Pues es verdad, pero eso sólo me pasa con el lynx.

Desde el navegador epiphany me funciona bien la URL

http://www.rae.es/ejemplo

que redirecciona a

http://buscon.rae.es/draeI/SrvltConsulta?TIPO_BUS=3&LEMA=ejemplo

que es una página con frames. El frame que contiene la info útil es:

http://buscon.rae.es/draeI/SrvltGUIBusUsual?LEMA=ejemplo&origen=RAE&TIPO_BUS=3

y desde epiphany devuelve la info esperada, pero desde lynx devuelve lo que
tú dices.
--
Gonzalo Pérez de Olaguer Córdoba <***@iies.es> --- www.gpoc.es
PGP key 2861C704 --- F206 5671 6789 425D 111C 1302 214F 1934 2861 C704
Ignacio Arenaza
2009-12-08 14:16:32 UTC
Permalink
Post by g***@telecable.es
Nope, sale lo mismo de antes. Una pantalla con dos entradas de texto y
la llamada a darle a la flechita.
Creo que de alguna manera comprueba si la petición viene desde un
navegador 'interactivo', porque me pasa como a Gonzalo, desde Firefox
si funciona, pero desde lynx pidiendolo a pelo no.

Así que he hecho un script en Perl mezclando lo que tenías y un par de
recetillas del 'Perl Cookbook' de O'Reilly, y con lo siguiente me
funciona perfectamente :-)

<------> <------> <------> <------> <------> <------> <------>
#!/usr/bin/perl -w

# Programa para acceder al diccionario de la RAE
# Distribuido bajo los términos de la licencia GNU GPLv2

use strict;

use LWP::UserAgent;
use HTTP::Request;
use HTTP::Response;
use HTML::Entities;
use IO::File;
use POSIX;

# Formato de la dirección donde se pide el lema. Por si cambia en el futuro :-)
# Basta con marcar la posicion del lema a buscar con '%s' (sin las comillas)
my $RAE_URL_FORMAT = 'http://buscon.rae.es/draeI/SrvltGUIBusUsual?LEMA=%s&origen=RAE&TIPO_BUS=3';

my ($w, $url, $ua, $req, $resp, $tmpfile, $name, $fh);

if (@ARGV){
if (-e $ARGV[0] && !-d $ARGV[0]){
open IN, "<".$ARGV[0] or die "Cannot open: $!";
chomp ($w = <IN>);
close IN;
}else{
$w = $ARGV[0];
}
}else{
chomp($w = <STDIN>);
}

# Codificar las eñes, tildes y demás en formato HTML.
$w = HTML::Entities::encode ($w);
$url = sprintf $RAE_URL_FORMAT, $w;

$ua = LWP::UserAgent->new();
# Simular que somos Mozilla Firefox 3.5.5 (se puede cambiar a voluntad)
$ua->agent('Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5');

$req = HTTP::Request->new(GET => $url);
# Simular todas las cabeceras que envia Firefox, para dar el pego }:-)
$req->referer('http://www.rae.es/rae.html');
$req->header('Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8');
$req->header('Accept-Language' => 'en-us,eu;q=0.7,en;q=0.3');
$req->header('Accept-Encoding' => 'gzip,deflate');
$req->header('Accept-Charset' => 'ISO-8859-1,utf-8;q=0.7,*;q=0.7');
$req->header('Keep-Alive' => '300');
$req->header('Connection' => 'keep-alive');

$resp = $ua->request($req);
if ($resp->is_error()) {
print "Error recuperando la pagina: %s\n", $resp->status_line;
}

do {
$tmpfile = POSIX::tmpnam();
} until $fh = IO::File->new($tmpfile, O_RDWR|O_CREAT|O_EXCL);

print $fh $resp->content();
close $fh;
print `lynx -dump -nolist -force_html $tmpfile`;
unlink($tmpfile);

exit 0;
<------> <------> <------> <------> <------> <------> <------>

Saludos. Iñaki.

- --
Mondragon University

GPG Key available at public keyservers
g***@telecable.es
2009-12-08 23:03:31 UTC
Permalink
Así que he hecho un script en Perl mezclando lo que tenías y un par de
recetillas del 'Perl Cookbook' de O'Reilly, y con lo siguiente me
funciona perfectamente :-)
------------------

Muchas gracias!

Tengo problemas para compilar HTML-Parser, pero algún día funcionará.

Saludos
J.A. Gutierrez
2009-12-10 12:43:05 UTC
Permalink
Ignacio Arenaza <***@eb2ebu.ampr.org> wrote:
: use LWP::UserAgent;

: print `lynx -dump -nolist -force_html $tmpfile`;


Este....

Y para acabar usando lynx, por que no usarlo desde el principio?

-8<------------------------------------------------------------------------
#!/bin/sh

lynx -crawl -useragent=Mozilla -dump \
"http://buscon.rae.es/draeI/SrvltGUIBusUsual?TIPO_HTML=2&LEMA=$1&FORMATO=DRAE"
-8<------------------------------------------------------------------------
--
PGP and other useless info at \
http://webdiis.unizar.es/~spd/ \
finger://daphne.cps.unizar.es/spd \ Timeo Danaos et dona ferentes
ftp://ivo.cps.unizar.es/pub/ \ (Virgilio)
g***@telecable.es
2009-12-11 08:18:08 UTC
Permalink
Y para acabar usando lynx, por que no usarlo desde el principio?

-8<------------------------------------------------------------------------
#!/bin/sh

lynx -crawl -useragent=Mozilla -dump \
"http://buscon.rae.es/draeI/SrvltGUIBusUsual?TIPO_HTML=2&LEMA=$1&FORMATO=DRAE"
-8<------------------------------------------------------------------------

===========================

Pues muchas gracias, también. Lo he adaptado a perl por motivos de acentos,
eñes y demás, que no me recogería $1, y funciona de maravilla.

Saludos

Loading...