Estructura http://www.bdyellowbook.com/En bdyellowbook.com encontramos el árbol de categorías padre a la izquierda. Tendremos que entrar en cada una de ellas.
Al entrar en cada una de las categorías encontramos dos listas: una de subcategorías, arriba, y otra de empresas que se encuentran dentro de la categoría padre pero en ninguna subcategoría:
SubcategoríasListado de empresas
Primero, entramos en la ficha de cada empresa pinchando en el nombre de cada una, por ejemplo ABC Radio:
Hay que tener en cuenta que el listado se divide en varias páginas, a las que accederemos mediante el linkque se encuentra abajo a la derecha,rodeado por el recuadro rojo (Next):
Dentro de la ficha, nos interesa obtener la mayor información posible. Lo que encontraremos y deberemos extraer será lo siguiente:
- Nombre de la empresa . En todas las ocasiones aparece en mayúsculas, por lo que habrá que cambiarla a mayúsculas y minúsculas.
- Imágenes . Nos interesan las imágenes y logos que pueda haber. Debemos extraer la url de las mismas.
- Dirección . La dirección la extraeremos limpia, ya que en muchas ocasiones nos vamos a encontrar alguna división de territorio dentro de ella.Por ejemplo:
Divisiones de territorio: Habrá que separar toda división de territorio que haya teniendo en cuenta el documento de clasificación geográfica. Por tanto, cada división se corresponderá con lo siguiente:
Región = District Provincia = Upazila/ Thana Población = Mauza/ Moholla Distrito = Village
Código postal: se extrae y se coloca en un campo aparte. Dirección: solamente quedará la calle, número, etc.
Dirección Divisiones de Código postal
- Ciudad. Se refiere al distrito, por lo tanto lo extraeremos y lo meteremos en el apartado de Región.
- Teléfono. El teléfono hay que limpiarlo, ya que en muchas ocasiones aparece con el prefijo del país o símbolos como “+” o guiones que no nos interesan. El prefijo de Bangladesh es el 880, por tanto si algún número empieza así, eliminamos los dígitos. Si aparecen varios teléfonos, los cogemos todos.
- Fax: el fax también lo limpiaremos, y si como en este caso, aparece el prefijo del país, lo eliminamos, así como los símbolos que encontremos.
- Email: nos interesa mucho conseguir cuantos más mails mejor. Si nos encontramos con varios emails, extraemos todos.
- Descripción: las descripciones no son predefinidas, por lo que las extraeremos: