# Metodología de Recolección de Datos

## Resumen

Este documento describe cómo se recopilan, verifican y actualizan los datos del ecosistema de financiamiento verde colombiano que alimentan la plataforma Ruta Verde. Es el documento de referencia para auditores, donantes y socios que deseen verificar cualquier dato del sistema.

## Fuentes Primarias

<table id="bkmrk-instituci%C3%B3ntipo-fuen"><thead><tr><th>Institución</th><th>Tipo Fuente</th><th>URL</th><th>Última Verificación</th></tr></thead><tbody><tr><td>Bancóldex</td><td>Página web + comunicados de prensa</td><td>bancoldex.com</td><td>Junio 2026</td></tr><tr><td>Findeter</td><td>Página web + informes anuales</td><td>findeter.gov.co</td><td>Junio 2026</td></tr><tr><td>Bancolombia</td><td>Informe Integrado 2024 + web</td><td>grupobancolombia.com/informeintegrado/2024</td><td>Junio 2026</td></tr><tr><td>Davivienda</td><td>Informe de Sostenibilidad 2024</td><td>davivienda.com/sostenibilidad</td><td>Junio 2026</td></tr><tr><td>BBVA Colombia</td><td>Informe No-Financiero 2024</td><td>bbva.com.co/responsabilidad-corporativa</td><td>Junio 2026</td></tr><tr><td>Banco de Bogotá</td><td>Comunicados + web sostenibilidad</td><td>bancodebogota.com/sostenibilidad</td><td>Junio 2026</td></tr><tr><td>Banco Agrario</td><td>Informe de Gestión y Sostenibilidad 2024</td><td>bancoagrario.gov.co</td><td>Junio 2026</td></tr><tr><td>Bancamía</td><td>Página web productos</td><td>bancamia.com.co</td><td>Junio 2026</td></tr><tr><td>Banco W</td><td>Página web + comunicados bono social</td><td>bancow.com.co</td><td>Junio 2026</td></tr><tr><td>BID/IDB</td><td>Portal de proyectos BID</td><td>iadb.org/en/project/CO-L1289</td><td>Junio 2026</td></tr><tr><td>IFC</td><td>Comunicados de prensa</td><td>ifc.org</td><td>Junio 2026</td></tr><tr><td>Banco de la República</td><td>IBR rates vía Grupo Aval/BanRep</td><td>banrep.gov.co</td><td>2026-06-23</td></tr></tbody></table>

## Método de Extracción

### Importación inicial (xlsx)

El dataset base de 51 productos fue construido manualmente a partir de páginas web bancarias, informes de sostenibilidad 2024 y comunicados de prensa. Cada campo fue verificado contra la fuente primaria antes de la importación.

### Pipeline automatizado semanal

El pipeline se ejecuta cada domingo a las 23:00 via systemd timer en el VPS CTH. Pasos:

1. Scraper HTTP visita páginas de productos de 6 bancos (Bancóldex, Findeter, Bancolombia, Davivienda, BBVA, Banco de Bogotá)
2. Extrae señales de cambio (variaciones en tasa IBR, disponibilidad de línea)
3. Compara contra los valores actuales en la DB MariaDB
4. Detecta diffs → genera lista de cambios pendientes de aprobación
5. Envía digest semanal por Telegram al equipo CTH
6. Genera los tres JSON tier (admin, partners, investors) para el dashboard

### Normalización de tasas

Las tasas se normalizan a **puntos base (BPS) sobre IBR overnight**. IBR como referencia: 10.51% (2026-06-23, fuente: Banco de Bogotá Internacional / Banco de la República). Las tasas no comparables en BPS (concesional, leasing, garantía) se almacenan como NULL en `rate_normalized_spread`.

## Cadena de Trazabilidad

1. **Dashboard muestra el dato** → e.g. "BCO-01 tasa: IBR + margen, descuento sostenible"
2. **DB almacena la fuente** → tabla `data_sources`: URL, fecha de acceso, método de extracción
3. **Wiki documenta el método** → esta página + Página 4 (Registro de Fuentes)

## Frecuencia de Verificación

- **Semanal:** Pipeline automatizado (scrapers)
- **Trimestral:** Spot-check de 10 productos contra páginas web bancarias
- **Anual:** Refresh competitivo completo