Данные, которые уже присутствуют в формате строк и столбцов или которые могут быть легко преобразованы в строки и столбцы, чтобы впоследствии они могли хорошо вписаться в базу данных, называются структурированными данными. Примерами являются файлы CSV, TXT, XLS и т. Д. Эти файлы имеют разделитель и либо фиксированной, либо переменной ширины, где пропущенные значения представлены в виде пробелов между разделителями. Но иногда мы получаем данные, где строки не имеют фиксированной ширины, или это просто HTML, изображения или PDF-файлы. Такие данные известны как неструктурированные данные. В то время как файл HTML можно обрабатывать путем обработки тегов HTML, канал из твиттера или простой текстовый документ из канала новостей без разделителя не может обрабатывать теги. В таком сценарии мы используем разные встроенные функции из разных библиотек python для обработки файла.
Чтение данных
В приведенном ниже примере мы берем текстовый файл и читаем файл, разделяющий каждую из строк в нем. Далее мы можем разделить вывод на следующие строки и слова. Исходный файл представляет собой текстовый файл, содержащий несколько абзацев, описывающих язык Python.
filename = 'path \ input.txt' с открытым (имя файла) как fn: # Читайте каждую строку ln = fn.readline () # Держите счетчик строк lncnt = 1 пока ln: print ("Line {}: {}". format (lncnt, ln.strip ())) ln = fn.readline () lncnt + = 1
Когда мы выполняем приведенный выше код, он дает следующий результат.
Line 1: Python is an interpreted high-level programming language for general-purpose programming. Created by Guido van Rossum and first released in 1991, Python has a design philosophy that emphasizes code readability, notably using significant whitespace. It provides constructs that enable clear programming on both small and large scales. Line 2: Python features a dynamic type system and automatic memory management. It supports multiple programming paradigms, including object-oriented, imperative, functional and procedural, and has a large and comprehensive standard library. Line 3: Python interpreters are available for many operating systems. CPython, the reference implementation of Python, is open source software and has a community-based development model, as do nearly all of its variant implementations. CPython is managed by the non-profit Python Software Foundation.
Подсчет частоты слов
Мы можем посчитать частоту слов в файле, используя функцию счетчика следующим образом.
из коллекции импорт счетчик с открытым (r'pathinput2.txt ') как f: p = Счетчик (f.read (). split ()) печать (р)
Когда мы выполняем приведенный выше код, он дает следующий результат.