Hlavním problémem při čtení souborů csv z webového serveru je to, že oddělovač použitý v souboru nemusí být stejný jako oddělovač používaný Pythonem. To může vést k chybám při pokusu o import dat do Pythonu.
import csv import urllib2 response = urllib2.urlopen('http://samplecsvs.s3.amazonaws.com/SalesJan2009.csv') csv_file = csv.reader(response) for row in csv_file: print row
Tento kód importuje moduly csv a urllib2. Poté použije urllib2 k otevření adresy URL „http://samplecsvs.s3.amazonaws.com/SalesJan2009.csv“. Kód pak vytvoří proměnnou csv_file, která je nastavena na funkci csv.reader a předá proměnnou odezvy jako argument. Kód pak používá cyklus for k iteraci každého řádku v souboru csv a vytiskne každý řádek do konzoly.
Soubory CSV
Soubory CSV jsou soubory s hodnotami oddělenými čárkami. Běžně se používají k ukládání dat v tabulkovém formátu. Soubory CSV lze číst pomocí modulu csv Pythonu.
Webové a CSV tipy
Existuje několik tipů pro práci s webovými a CSV daty v Pythonu.
Nejprve je důležité pochopit, že existují dva různé typy dat: textová a binární. Binární data se skládají z 1s a 0s, zatímco textová data jsou jen řada znaků.
Při práci s binárními daty je důležité používat správné nástroje. Například knihovnu pandas lze použít ke čtení a zápisu binárních souborů.
Zadruhé, při práci se soubory CSV je důležité sledovat názvy sloupců. Python má vestavěnou funkci nazvanou split(), kterou lze použít k rozdělení souboru do jednotlivých sloupců.
Nakonec je také důležité si uvědomit, že soubory CSV jsou hodnoty oddělené čárkami (CSV). To znamená, že každý sloupec musí být uveden na samostatném řádku.