python dictionary, make every odd number line to key and even number line to value from a file

Question 1

Something like this:

with open('filename') as f:
    query_dict = {line.strip():next(f).strip() for line in f}

Output:

>>> from pprint import pprint
>>> pprint(query_dict)
{'>NM_000614.3:1086': 'ATTCAATTTAAAATCAGACTCTTTAGTTGA',
 '>NM_001198858.1:490': 'CAACCACCACAACCTGCTGGTCTGCTCGGT',
 '>NM_012096.2:2808': 'CAGTTAAGGTTTCAAATTGTGGCAGGTGGT',
 '>NM_145914.2:212': 'TCTGATGGTAAAAGTCGAGGAGAAAGAAGA',
 '>NM_173465.3:1682': 'GTGCGTCGGGTGAGAGAGGCCCCAGCGGCC'}

Update:

with open('foo.txt') as f:
    dic = {}
    for line in f:
        dic[line.strip()] = next(f).strip()
        next(f);next(f)  #Drop next two lines
from pprint import pprint
pprint(dic)

Output:

{'@>NM_052972.2:11:1054:1780:889': 'CTTCGACATCTCCGGCAACCCCTGGATCTG',
 '@>NM_080660.3:12:914:1802:542': 'CCTGTATGGCTACTGCAACCTCAAGGATAA',
 '@>NM_176814.3:712:2706:4242:98': 'ACAGAGTAAAAGAGAGGCTGACTTAATAAA'}

Question 2

That's a FASTA file. Install Biopython (pip install biopython) and parse it:

from Bio import SeqIO

with open('filename.fasta', 'rU') as handle:
    for record in SeqIO.parse(handle, 'fasta'):
        print(record)

Just look at that readable output:

ID: NM_145914.2:212
Name: NM_145914.2:212
Description: NM_145914.2:212
Number of features: 0
Seq('TCTGATGGTAAAAGTCGAGGAGAAAGAAGA', SingleLetterAlphabet())
...

Question 3

Or, instead of a dict-comp:

from itertools import izip

with open('somefile') as fin:
    lines = (line.strip() for line in fin)
    query_dict = dict(izip(lines, lines))

Question 4

>>> s = """>NM_145914.2:212
... TCTGATGGTAAAAGTCGAGGAGAAAGAAGA
... >NM_000614.3:1086
... ATTCAATTTAAAATCAGACTCTTTAGTTGA
... >NM_012096.2:2808
... CAGTTAAGGTTTCAAATTGTGGCAGGTGGT
... >NM_173465.3:1682
... GTGCGTCGGGTGAGAGAGGCCCCAGCGGCC
... >NM_001198858.1:490
... CAACCACCACAACCTGCTGGTCTGCTCGGT""".splitlines()
>>> {i: j for i, j in zip(s[::2], s[1::2])}
{'>NM_145914.2:212': 'TCTGATGGTAAAAGTCGAGGAGAAAGAAGA', '>NM_000614.3:1086': 'ATTCAATTTAAAATCAGACTCTTTAGTTGA', '>NM_001198858.1:490': 'CAACCACCACAACCTGCTGGTCTGCTCGGT', '>NM_012096.2:2808': 'CAGTTAAGGTTTCAAATTGTGGCAGGTGGT', '>NM_173465.3:1682': 'GTGCGTCGGGTGAGAGAGGCCCCAGCGGCC'}

Use itertools.islice if memory is an issue:

{i: j for i, j in zip(islice(s, 0, len(s), 2), islice(s, 1, len(s), 2))}