Skip to content

Parser governi

Gabriele Lucci requested to merge feature/parser_governments_to_json into master

Fonte dei dati:

I dati provengono dall'endpoint SPARQL della Camera_ e dal sito web del Senato_ (per i dati anagrafici non presenti sul nei LOD della Camera).

Breakdown:

  1. Ottieni legislatura/e dall'endpoint SPARQL della Camera_.
  2. Ottieni e ricostruisci le informazioni anagrafiche delle persone con incarichi di governo per ogni legislatura.
  • Ottieni tutte le informazioni possibili
  • Ottieni informazioni complementari facendo web scraping del sito web del Senato_.
  1. Ricostruisci e assegna le memberships a persone
  2. Formatta i dati in JSON (example below) in modo che sia importabile dallo script import_persons_memberships_from_json.

Note:

  • I membri del governo che non sono deputati, non hanno alcune informazioni anagrafiche (luogo di nascita, dati di nascita , data di morte, foto) ottenibili dall'endpoint SPARQL della Camera_. Occorre recuperare queste informazioni dal sito web del Senato_ (tramite web scraping).
  • Al 2019-04-18, il Governo Gentiloni risulta ancora in carica secondo le fonti ufficiali (endpoint SPARQL della Camera_ e sito web del Senato_). Occorre implementare un workaround.
  • Usa il package BeautifulSoup per fare parsing/scraping delle pagine web.
  • Usa str.casefold() per case insensitive comparisons.

Example output JSON:

        [
            {
                given_name: "Armando",
                family_name: "Siri",
                birth_location: "Genova",
                birth_date: "1971-08-10",
                death_date: null,
                gender: "M",
                image: "http://www.senato.it/leg/18/Immagini/Senatori/00032715.jpg",
                profession: null,
                education_level: null,
                other_names: [],
                contact_details: [
                    {
                        "label": "Twitter",
                        "value": "https://twitter.com/armandosiri",
                        "contact_type": "TWITTER",
                    },
                    {
                        "label": "Facebook",
                        "value": "https://www.facebook.com/ArmandoSiri/",
                        "contact_type": "FACEBOOK",
                    },
                    {
                        "label": "Website",
                        "value": "http://www.armandosiri.it",
                        "contact_type": "URL",
                    },
                    {
                        "label": "Instagram",
                        "value": "https://www.instagram.com/armandosiri/",
                        "contact_type": "INSTAGRAM",
                    },
                ],
                links: [],
                sources: [
                    {
                        "note": "Open Data Camera",
                        "url": "http://dati.camera.it/ocd/persona.rdf/p307899",
                    }
                ],
                identifiers: [
                    {
                        "scheme": "OCD-URI",
                        "identifier": "http://dati.camera.it/ocd/persona.rdf/p307899",
                    },
                    {
                        "scheme": "SENATO-ID",
                        "identifier": "32715",
                    },
                ],
                memberships: [
                    {
                        "organization_id": 51696,
                        "label": "Sottosegretario di Stato per le Infrastrutture e i trasporti del I Governo Conte"
                        "role": "Sottosegretario di Stato",
                        "links": [
                            {
                                "note": "Pagina sito del Senato",
                                "url": "http://www.senato.it/loc/link.asp?tipodoc=sattsen&leg=18&id=32715"
                            }
                        ],
                        "sources": [
                            {
                                "note": "Open Data Camera",
                                "url": "http://dati.camera.it/ocd/membroGoverno.rdf/mg307899_5_142_198_20180613"
                            }
                        ],
                        "start_date": "2018-06-13",
                        "end_date": null,
                    }
                ],
            },
        ]
Edited by Gabriele Lucci

Merge request reports