Parser governi
Fonte dei dati:
I dati provengono dall'endpoint SPARQL della Camera
_ e dal sito web del Senato
_ (per i dati anagrafici non presenti sul nei LOD della Camera).
Breakdown:
- Ottieni legislatura/e dall'
endpoint SPARQL della Camera
_. - Ottieni e ricostruisci le informazioni anagrafiche delle persone con incarichi di governo per ogni legislatura.
- Ottieni tutte le informazioni possibili
- Ottieni informazioni complementari facendo web scraping del
sito web del Senato
_.
- Ricostruisci e assegna le memberships a persone
- Formatta i dati in JSON (example below) in modo che sia importabile dallo script
import_persons_memberships_from_json
.
Note:
- I membri del governo che non sono deputati, non hanno alcune informazioni
anagrafiche (luogo di nascita, dati di nascita , data di morte, foto)
ottenibili dall'
endpoint SPARQL della Camera
_. Occorre recuperare queste informazioni dalsito web del Senato
_ (tramite web scraping). - Al 2019-04-18, il Governo Gentiloni risulta ancora in carica secondo le fonti ufficiali (
endpoint SPARQL della Camera
_ esito web del Senato
_). Occorre implementare un workaround. - Usa il package BeautifulSoup per fare parsing/scraping delle pagine web.
- Usa
str.casefold()
per case insensitive comparisons.
Example output JSON:
[
{
given_name: "Armando",
family_name: "Siri",
birth_location: "Genova",
birth_date: "1971-08-10",
death_date: null,
gender: "M",
image: "http://www.senato.it/leg/18/Immagini/Senatori/00032715.jpg",
profession: null,
education_level: null,
other_names: [],
contact_details: [
{
"label": "Twitter",
"value": "https://twitter.com/armandosiri",
"contact_type": "TWITTER",
},
{
"label": "Facebook",
"value": "https://www.facebook.com/ArmandoSiri/",
"contact_type": "FACEBOOK",
},
{
"label": "Website",
"value": "http://www.armandosiri.it",
"contact_type": "URL",
},
{
"label": "Instagram",
"value": "https://www.instagram.com/armandosiri/",
"contact_type": "INSTAGRAM",
},
],
links: [],
sources: [
{
"note": "Open Data Camera",
"url": "http://dati.camera.it/ocd/persona.rdf/p307899",
}
],
identifiers: [
{
"scheme": "OCD-URI",
"identifier": "http://dati.camera.it/ocd/persona.rdf/p307899",
},
{
"scheme": "SENATO-ID",
"identifier": "32715",
},
],
memberships: [
{
"organization_id": 51696,
"label": "Sottosegretario di Stato per le Infrastrutture e i trasporti del I Governo Conte"
"role": "Sottosegretario di Stato",
"links": [
{
"note": "Pagina sito del Senato",
"url": "http://www.senato.it/loc/link.asp?tipodoc=sattsen&leg=18&id=32715"
}
],
"sources": [
{
"note": "Open Data Camera",
"url": "http://dati.camera.it/ocd/membroGoverno.rdf/mg307899_5_142_198_20180613"
}
],
"start_date": "2018-06-13",
"end_date": null,
}
],
},
]
Edited by Gabriele Lucci