| Corpus
del catalán El
corpus de estudio sobre el uso del catalán en la WEB de la Cátedra de Telefónica está
formado por más de 125.000 documentos extraídos de la red bajo el dominio
".ES". Este corpus contiene más de 200 millones de palabras en catalán que han
sido etiquetadas con información morfosintáctica, lo cual permite búsquedas por lema,
categoría morfológica y función sintáctica.
El corpus de catalán, el más grande que existe actualmente para este idioma, permitirá
realizar estudios lingüísticos y sociolingüísticos sobre el catalán y su uso en
Internet. Su interfaz, CUCweb, permite búsquedas con información lingüística en dos
niveles de complejidad, ofreciendo mayor información y flexibilidad que otros corpus.
Entrar a CucWeb >>
|
Estudio de la web española
Se ha realizado el primer
estudio masivo del contenido y la estructura de la Web española. Para ello, se ha recorrido y recogido
su contenido textual utilizando "crawlers" como los utilizados en la generación
de grandes máquinas de búsqueda. Los estudios se han realizado sobre más de 16 millones
de páginas hospedadas en servidores situados en territorio español.
Se ha analizado la estructura
de esa porción de la web y el idioma del contenido textual, generando la base para construir
corpora del uso en Internet de las lenguas del estado español. Se ha caracterizado también el
"web spam" que se usa con frecuencia en la web española y se ha lanzado el concepto de Web Empírica,
empezando su explotación.
Ver el estudio >> |