조디악 표시로 호환성을 찾으십시오
저널리스트가 Geocommons를 사용하여 대화형 지도를 만드는 방법
다른
몇 달 전에 John Keefe는 Pointer.org에 shapefile을 사용하는 방법에 대해 썼습니다. 그는 shapefile의 힘이 점 대신 영역을 참조하는 능력이라고 썼습니다.
그러나 데이터에 포인트(예: 주소)가 있고 지역을 매핑하려는 경우에는 어떻게 해야 합니까? 예를 들어 환경 위반에 대한 주소가 있고 가장 많이 위반한 지역구를 표시하려고 한다고 가정해 보겠습니다. 이러한 점을 모양으로 연결하는 방법을 찾아야 합니다. 이 튜토리얼에서는 그 방법을 설명하겠습니다.
내가 일하는 조직인 Sunlight Foundation의 예를 들어보겠습니다. 라는 사이트가 있습니다. 투명성 데이터 , 사용자가 데이터를 다운로드할 수 있는 곳으로, 그 중 일부는 주소를 포함합니다. 그러한 데이터 세트 중 하나는 EPA 위반 데이터입니다. Transparency Data로 이동하여 'EPA' 탭을 클릭한 다음 2011년 7월 1일부터 2011년 12월 31일 사이의 위반 사항을 검색합니다. Transparency Data는 약 1,300개의 레코드를 반환합니다. 거대한 '데이터 다운로드' 버튼을 클릭하여 기록을 컴퓨터에 저장합니다.
해당 데이터를 다운로드하면 스프레드시트에서 엽니다. 열 중 하나에 위반 주소가 포함되어 있음을 알 수 있습니다. (이 열의 일부 셀에는 여러 주소가 포함되어 있고 다른 셀에는 주소가 전혀 없습니다. 목적을 위해 여러 주소가 있는 레코드나 주소가 없는 레코드를 제거합니다. 이 이전 이야기를 참조할 수 있습니다. 도움이 필요한 경우 '저널리스트가 Excel을 사용하여 기사용 데이터를 구성하는 방법'을 참조하세요.)
또한 주소를 구성 요소 부분으로 분리해야 합니다. 시, 주 및 우편번호에 대한 새 열을 생성하겠습니다.
(이에 대한 도움이 필요하면 내 이전 How To 중 하나인 'How Journals can use regular expression to match string of text'를 참조할 수 있습니다. 힌트, 내 찾기/바꾸기는 다음을 검색하는 것이었습니다.
|_+_|다음으로 바꿉니다.
|_+_|그러면 몇 가지 오류(예: 도시 필드의 스위트 번호)가 남게 되며 다음을 검색하여 수정할 것입니다.
|_+_|다음으로 대체:
|_+_|데이터가 정리되면 스프레드시트로 다시 가져올 것입니다. 그런 다음 해당 스프레드시트를 .csv 또는 '쉼표로 구분된 값' 텍스트 파일로 내보냅니다. 이렇게 생긴 파일 .)
이제 이러한 주소를 하원 선거구와 통합하기 위해 제가 가장 좋아하는 도구 중 하나를 사용할 것입니다. 지오커먼즈 . 위의 스프레드시트를 CSV 또는 '쉼표로 구분된 값' 텍스트 파일로 내보내는 것으로 이 프로세스를 시작하겠습니다. 여기에 예제 파일을 게시했습니다 . 그런 다음 해당 CSV를 GeoCommons에 직접 업로드합니다.
GeoCommons에 업로드하면 서비스에서 데이터 '지리적 위치 파악을 도와달라'고 요청할 때까지 프롬프트를 따릅니다. 우리에게는 두 가지 선택지가 주어졌습니다. 먼저 데이터를 경계 데이터 세트와 연결하거나 결합할 수 있습니다. 이 옵션을 선택하려면 스프레드시트에 경계 데이터가 필요합니다. 이러한 데이터에는 카운티 이름 또는 FIPS 코드, 의회 선거구 코드, 인구 조사 지역 등이 포함될 수 있습니다. 우리 데이터에는 해당 필드가 없습니다.
두 번째 옵션인 '주소 또는 장소 이름을 기반으로 하는 지오코딩'은 거리 주소와 같은 위치 정보를 가져와 경도와 위도로 변환합니다. 이것은 우리가 선택하려는 옵션입니다.
파일의 헤더에 따라 GeoCommons는 일부 위치 필드를 자동으로 식별할 수 있습니다. 그렇지 않으면 GeoCommons가 주소를 구성하는 필드를 결정하도록 도와야 합니다. 그렇게 하려면 '위치 주소'까지 아래로 스크롤하고 '수정'을 선택합니다. 거기에서 우리는 '거리 주소'를 선택합니다. 시, 주 및 우편 번호에 대해서도 마찬가지로 수행합니다. 그런 다음 '계속'을 클릭하십시오. (참고, GeoCommons는 파일당 최대 5,000개의 주소만 지오코딩할 수 있습니다.) 원하거나 필요한 경우 다른 필드 데이터 유형을 조정할 수도 있습니다.
이 서비스는 주소를 해독하고 위도 및 경도 지점으로 변환하는 데 시간이 걸립니다. 이 프로세스가 끝나면 GeoCommons에서 주소의 위치를 얼마나 잘 찾을 수 있었는지 알려줍니다. 내 테스트에서 지오코딩은 약 10분이 걸렸습니다. (파일이 지오코딩될 때까지 기다리지 않으려면 사용 가능한 내 데이터 사본을 자유롭게 사용하십시오. 여기 .) 물론 다른 서비스를 사용하여 데이터를 위도와 경도로 지오코딩한 다음 다른 모든 필드와 함께 해당 필드를 포함하는 CSV를 GeoCommons에 업로드할 수도 있습니다.
다음으로 GeoCommons의 가장 좋은 기능 중 하나인 데이터 분석 기능을 활용할 것입니다. 새로 지오코딩된 데이터 세트로 이동하면 페이지 오른쪽 상단에 있는 '분석' 버튼을 클릭하여 이러한 기능에 액세스할 수 있습니다.
이것은 많은 옵션을 제공합니다. 이러한 도구를 사용하는 데 시간을 할애해야 하지만 이 자습서에서는 두 번째 도구인 '집계'를 선택합니다. 결과 대화 상자에서 경계 세트를 선택해야 합니다. 창이 열리고 '111th Congressional Districts'를 검색합니다. 여기에서 내가 업로드한 지역을 선택합니다. 이 구역은 벡터 기반으로 면적을 기술하는 셰이프 파일 형식입니다.
위반이 없는 구역을 표시하고 싶지 않기 때문에 '빈 경계 유지'를 선택 취소했습니다.
이제 GeoCommons가 분석을 수행합니다. 제 경우에는 약 20분이 소요되었습니다. 결과 파일은 다음 위치에 있습니다. 여기 .
GeoCommons 내에서 결과 데이터 세트를 매핑할 수 있지만 서비스의 맵이 너무 제한적이라는 것을 알았습니다. 예를 들어 지도 도구 설명의 정보 형식을 완전히 제어할 수 없습니다.
그런 이유로 저는 'KML로 다운로드' 기능을 사용하여 GeoCommons에서 지도를 내보내는 것을 좋아합니다. GeoCommons가 내보낸 KML 파일에는 모든 데이터와 경계 정보가 포함됩니다. 이 파일을 사용하여 Google Fusion Tables로 전환하고 KML을 가져오고 디자인, 음영, 정보 창 등을 완전히 제어할 수 있습니다. John Keef는 이미 shapefile에 대한 소개에서 이를 다루었으므로 동일한 근거는 다루지 않겠습니다.
나는 일반적으로 완성된 지도에 Geocommons를 사용하지 않지만, 특히 경계나 영역을 다룰 때 유익하고 매력적인 지도를 만드는 데 매우 유용한 도구입니다.
재미있게 탐색하고 의견 섹션에서 GeoCommons 및 매핑에 대한 경험을 공유하십시오. 이 시리즈에서 다루거나 다루었으면 하는 다른 주제가 있으면 알려주십시오.
이 이야기는 포인터의 일부입니다 해킹/해커 시리즈 방법 저널리스트가 기술 및 새로운 기술 도구의 새로운 트렌드에서 배울 수 있는 것에 중점을 둡니다.